清源 CPM
清源 CPM (Chinese Pretrained Models) 是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文为核心的大规模预训练模型。首期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务以及知识计算应用,所有模型免费向学术界和产业界开放下载,供研究使用。
模型参数规模达26亿,截至2020年10月,为最大的中文预训练语言模型。
能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果。
收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型。
基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。