4月19日,阿里巴巴达摩院发布中文社区最大规划预练习言语模型PLUG(Pre-training for Language Understanding and Generation)。该模型参数规划达270亿,集言语了解与生成才能于一身,在小说创造、诗篇生成、智能问答等长文本生成范畴体现杰出,其方针是通过超大模型的才能,大幅提高中文NLP各类使命的体现,获得逾越人类体现的功能。发布后,PLUG刷新了中文言语了解评测基准CLUE分类榜单历史纪录。
相较于Open AI的GPT-3等其他大规划生成模型,PLUG具有如下几个共同优势:
<ul background-color:#ffffff;"="" style="font-family: "sans serif", tahoma, verdana, helvetica; white-space: normal; color: rgb(51, 51, 51);">
PLUG是目前中文社区最大规划的纯文本预练习言语模型。
PLUG集言语了解与生成才能于一身,在言语了解(NLU)使命上,以80.614分刷新了Chinese GLUE分类榜单的新记录排名第一;在言语生成(NLG)使命上,在多项事务数据上较State-of-the-art均匀提高8%以上。
PLUG可为方针使命做针对性优化,通过利用下流练习数据finetune模型使其在该特定使命上生成质量达到最优,弥补之前其它大规划生成模型few-shot inference的生成作用缺乏,适于应用在实践生成使命。
PLUG采用了大规划的高质量中文练习数据(1T以上),一起,PLUG采用encoder-decoder的双向建模方式,因此,在传统的zero-shot生成的体现上,无论是生成的多样性,范畴的广泛程度,还是生成长文本的体现,较此前的模型均有明显的优势。
PLUG开放了体会功能供学术范畴试用。
整个操练流程分为两个阶段。首先在第一阶段,达摩院团队操练了一个24 layers/8192 hidden size的标准StructBERT模型作为encoder。这个进程共计操练了300B tokens的操练数据,规划与GPT-3的操练规划恰当。在第二阶段,达摩院团队将这个encoder用于生成模型的初始化,并外挂了一个6 layers / 8192 hidden size的decoder,在操练生成模型的进程中,在encoder端和decoder端均随机承认长度[32, 512]进行数据采样,确保习惯下贱广泛的生成任务。这一阶段共计操练了100B tokens的操练数据,前90%的操练中,团队保留了Masked LM任务以坚持模型的NLU才干,后10%的操练中,去掉MLM任务进行微调,以使得生成的PPL降到更低,能取得更好的生成作用。
客服支持
微信咨询
售后