270亿参数的“中文版GPT-3”来了！阿里达摩院发布超大规模语言模型PLUG

新闻公告

270亿参数的“中文版GPT-3”来了！阿里达摩院发布超大规模语言模型PLUG

发布时间：2021-04-20 18:25:42

4月19日，阿里巴巴达摩院发布中文社区最大规划预练习言语模型PLUG（Pre-training for Language Understanding and Generation）。该模型参数规划达270亿，集言语了解与生成才能于一身，在小说创造、诗篇生成、智能问答等长文本生成范畴体现杰出，其方针是通过超大模型的才能，大幅提高中文NLP各类使命的体现，获得逾越人类体现的功能。发布后，PLUG刷新了中文言语了解评测基准CLUE分类榜单历史纪录。

相较于Open AI的GPT-3等其他大规划生成模型，PLUG具有如下几个共同优势：

PLUG是目前中文社区最大规划的纯文本预练习言语模型。
PLUG集言语了解与生成才能于一身，在言语了解（NLU）使命上，以80.614分刷新了Chinese GLUE分类榜单的新记录排名第一；在言语生成（NLG）使命上，在多项事务数据上较State-of-the-art均匀提高8%以上。
PLUG可为方针使命做针对性优化，通过利用下流练习数据finetune模型使其在该特定使命上生成质量达到最优，弥补之前其它大规划生成模型few-shot inference的生成作用缺乏，适于应用在实践生成使命。
PLUG采用了大规划的高质量中文练习数据（1T以上），一起，PLUG采用encoder-decoder的双向建模方式，因此，在传统的zero-shot生成的体现上，无论是生成的多样性，范畴的广泛程度，还是生成长文本的体现，较此前的模型均有明显的优势。
PLUG开放了体会功能供学术范畴试用。

整个操练流程分为两个阶段。首先在第一阶段，达摩院团队操练了一个24 layers／8192 hidden size的标准StructBERT模型作为encoder。这个进程共计操练了300B tokens的操练数据，规划与GPT-3的操练规划恰当。在第二阶段，达摩院团队将这个encoder用于生成模型的初始化，并外挂了一个6 layers / 8192 hidden size的decoder，在操练生成模型的进程中，在encoder端和decoder端均随机承认长度[32, 512]进行数据采样，确保习惯下贱广泛的生成任务。这一阶段共计操练了100B tokens的操练数据，前90%的操练中，团队保留了Masked LM任务以坚持模型的NLU才干，后10%的操练中，去掉MLM任务进行微调，以使得生成的PPL降到更低，能取得更好的生成作用。