当前位置:数码通 > 数码

Google 训练并开发了具有数万亿参数的 AI 语言模型

来源于 数码通 2023-09-29 15:02

参数机器学习算法的关键。它们是从历史训练数据中学习的模型的一部分。一般来说,在语言领域,参数的数量和复杂度之间的相关性非常好。例如,OpenAI的GPT-3是迄今为止训练有素的最大语言模型之一,拥有1750亿个参数,它可以进行原始类比,生成食谱,甚至完成基本代码。

最近,谷歌的研究人员开发了一项技术并对其进行了基准测试,他们声称该技术能够训练包含超过一万亿个参数的语言模型。他们表示,他们的 1.6 万亿参数模型是迄今为止最大的,并且比之前最大的 Google 开发的语言模型(T5-XXL)快四倍。

研究人员指出,大规模训练是构建强大模型的有效方法。简单的架构、对大数据集和参数计数的支持优于更复杂的算法。然而,大规模训练虽然有效,但计算量极大。这就是为什么研究人员追求他们所谓的 Switch Transformer,一种“稀疏激活”技术,仅使用模型权重的子集或在模型内转换输入数据的参数。

Switch Transformer 的新颖之处在于它有效地利用了为密集矩阵乘法(语言模型中广泛使用的数学运算)而设计的硬件,例如GPU和TPU。在研究人员的分布式训练设置中,他们的模型为不同的设备分配了不同的权重,以便权重随着设备数量的增加而增长,但在每个设备上保持可管理的内存和内存。计算空间。

在一项实验中,研究人员使用 32 个 TPU 核心在 750GB 数据集上预训练几个不同的 Switch Transformer 模型,该数据集包含从 Reddit、维基百科和其他在线资源获得的文本。他们要求模型预测 15% 的单词被掩盖的段落中缺失的单词,以及其他挑战,例如检索文本以回答一系列越来越困难的问题。

研究人员声称,与拥有 3950 亿个参数和 64 名专家的较小模型 (Switch-XXL) 相比,他们的 1.6 万亿参数模型 (Switch-C) 和 2,048 名专家“完全未经训练”。不稳定”。

然而,在 SQuAD 基准测试中,Switch-C 得分较低(87.7),而 Switch-XXL 得分为 89.6,研究人员将此归因于微调质量、计算要求和参数数量之间缺乏明确性。关系。

在这种情况下,Switch Transformer 提高了许多下游任务的性能。例如,在使用相同数量的计算资源的情况下,它可以将预训练速度提高7倍以上。

与此同时,研究人员证明,大型稀疏模型可用于创建更小、更密集的模型,这些模型可以针对任务进行微调,而质量增益仅为大型模型的 30%。

在一项测试中,Switch Transformer 模型经过训练可以在 100 多种不同语言之间进行翻译,研究人员观察到其中 101 种语言的总体改进。

在未来的工作中,研究人员计划将 Switch Transformer 应用于新的不同模式,包括图像和文本。他们认为模型稀疏性在一系列不同的媒体和多模态模型中具有优势。
责任编辑:pj

-->
登录后参与评论