大模特培训成本降低近一半！新加坡国立大学最新的优化器已经投入使用

日期：2023-07-12 14:15:07 / 人气：465

量子比特|微信官方账号QbitAI
优化器在大语言模型的训练中占用了大量的内存资源。
现在有了新的优化方法，在保持性能不变的情况下，内存消耗减少了一半。
该成果由新加坡国立大学创造，获得ACL会议优秀论文奖，并已投入实际应用。
随着大语言模型的参数越来越多，训练时的内存消耗问题更加严重。
研究小组提出了CAME优化器，它在降低内存消耗的同时具有与Adam相同的性能。
CAME optimizer在几个常用的大规模语言模型的预训练中取得了与Adam optimizer相同甚至更好的训练性能，对大批量的预训练场景表现出更强的鲁棒性。
再者，通过CAME优化器训练大规模语言模型，可以大大降低大规模模型训练的成本。
实现方法
CAME optimizer由Adafactor optimizer改进而来，在大规模语言模型的预训练任务中往往会导致训练性能的损失。
Adafactor中的非负矩阵分解运算必然会在深度神经网络的训练中产生误差，而这些误差的修正是性能损失的来源。
通过比较发现，当初始值mt和当前值T之间的差小时，mt的置信度较高。
受此启发，团队提出了一种新的优化算法。
下图蓝色部分是CAME与Adafactor相比的增加。
CAME优化器基于模型更新的置信度来校正更新量，并对引入的置信度矩阵执行非负矩阵分解操作。
最终，CAME成功的用Adafactor的消耗获得了Adam的效果。
同样的效果只消耗一半的资源。
使用的团队分别来训练伯特，GPT-2和T5模型。
之前常用的Adam(效果更好)和Adafactor(消耗更低)是衡量CAME性能的参考。
其中，在训练BERT的过程中，CAME只用了一半的步骤就达到了和Adafaactor一样的准确率。
△左侧为8K刻度，右侧为32K刻度。对于GPT-2来说，就损失和混乱而言，考恩的表现非常接近亚当。
在T5模型的训练中，CAME也表现出类似的结果。
对于模型的微调，进来精度的表现不输于基准。
在资源消耗方面，使用PyTorch用4B数据训练BERT时，CAME消耗的内存资源比基准测试减少了近一半。
团队介绍
新加坡国立大学HPC-AI实验室是由尤杨教授领导的高性能计算和人工智能实验室。
实验室致力于高性能计算、机器学习系统和分布式并行计算的研究和创新，推动其在大规模语言模型等领域的应用。
实验室的负责人尤杨是新加坡国立大学计算机系的系主任(总统级年轻教授)。
2021年，尤杨入选福布斯30岁以下精英榜(亚洲)，并获得IEEE-CS超级计算杰出新人奖。目前的研究重点是大规模深度学习训练算法的分布式优化。
本文第一作者罗阳是该实验室的硕士生。他目前的研究重点是大型模型训练的稳定性和高效训练。

作者：恒达娱乐

大模特培训成本降低近一半！新加坡国立大学最新的优化器已经投入使用

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →