项目特点

模型规模大

模型参数规模达26亿,截至2020年10月,为最大的中文预训练语言模型。

学习能力

能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果。

语料丰富多样

收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型。

行文自然流畅

基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。

历程规划
01 2019.07.28 发表于 ACL 2019 ERNIE 02 2019.11.06 发表于 EMNLP 2020 SentiLARE 06 2021.01月 开源发布更大规模的预训练 中文语言模型 04 2020.02.19 发表于 TACL 2020 KEPLER 08 2021.09月 开源发布融合大规模知识的 预训练语言模型 03 2020.01.15 发表于 TACL 2020 StoryGPT 07 2021.05月 开源发布以中文为核心的 多语言预训练模型 05 2020.11月中旬 是当前开源规模最大的中文 预训练模型 开源发布CPM预训练中文 语言模型和知识表示模型
系统演示

故事生成

敬请期待

知识图谱

敬请期待
在线支持

智源社区

欢迎在智源社区发布你想要咨询的问题,相关技术人员会及时为您解答。也欢迎通过智源社区留下您对本计划的意见、建议和期望。

点击进入

微信群

欢迎加入清源官方微信群,交流技术问题和意见建议,与官方团队和其他用户进行交流。

加入群聊

资源链接