关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

270亿参数的“中文版GPT-3”来了!阿里达摩院发布超大规模语言模型PLUG

发布时间:2021-04-20 18:25:42

4月19日,阿里巴巴达摩院发布中文社区最大规划预练习言语模型PLUG(Pre-training for Language Understanding and Generation)。该模型参数规划达270亿,集言语了解与生成才能于一身,在小说创造、诗篇生成、智能问答等长文本生成范畴体现杰出,其方针是通过超大模型的才能,大幅提高中文NLP各类使命的体现,获得逾越人类体现的功能。发布后,PLUG刷新了中文言语了解评测基准CLUE分类榜单历史纪录。

相较于Open AI的GPT-3等其他大规划生成模型,PLUG具有如下几个共同优势:

<ul background-color:#ffffff;"="" style="font-family: "sans serif", tahoma, verdana, helvetica; white-space: normal; color: rgb(51, 51, 51);">

  • PLUG是目前中文社区最大规划的纯文本预练习言语模型。

  • PLUG集言语了解与生成才能于一身,在言语了解(NLU)使命上,以80.614分刷新了Chinese GLUE分类榜单的新记录排名第一;在言语生成(NLG)使命上,在多项事务数据上较State-of-the-art均匀提高8%以上。

  • PLUG可为方针使命做针对性优化,通过利用下流练习数据finetune模型使其在该特定使命上生成质量达到最优,弥补之前其它大规划生成模型few-shot inference的生成作用缺乏,适于应用在实践生成使命。

  • PLUG采用了大规划的高质量中文练习数据(1T以上),一起,PLUG采用encoder-decoder的双向建模方式,因此,在传统的zero-shot生成的体现上,无论是生成的多样性,范畴的广泛程度,还是生成长文本的体现,较此前的模型均有明显的优势。

  • PLUG开放了体会功能供学术范畴试用。

整个操练流程分为两个阶段。首先在第一阶段,达摩院团队操练了一个24 layers/8192 hidden size的标准StructBERT模型作为encoder。这个进程共计操练了300B tokens的操练数据,规划与GPT-3的操练规划恰当。在第二阶段,达摩院团队将这个encoder用于生成模型的初始化,并外挂了一个6 layers / 8192 hidden size的decoder,在操练生成模型的进程中,在encoder端和decoder端均随机承认长度[32, 512]进行数据采样,确保习惯下贱广泛的生成任务。这一阶段共计操练了100B tokens的操练数据,前90%的操练中,团队保留了Masked LM任务以坚持模型的NLU才干,后10%的操练中,去掉MLM任务进行微调,以使得生成的PPL降到更低,能取得更好的生成作用。



/template/Home/News/PC/Static
var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?3055b648e71c7d34d18c96db95a87337"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();
客服中心
点击二维码下边按钮可通过微信联系客服进行沟通
QICQ支持
处理:机器咨询,产品优惠,售后处理服务器状态异常等,10分钟内响应
微信支持
工单服务
提交工单:在线工单入口
工单处理:网络延时,机器状态异常,网站备案等,10分钟内响应
投诉/合作
滥用举报:abuse@wuyouyun.com
商务合作:business@wuyouyun.com
服务投诉:微信处理入口
处理:投诉,建议,代理,大客户,我们会全力以赴满足您的服务请求