大模特培训成本降低近一半!新加坡国立大学最新的优化器已经投入使用

日期:2023-07-12 14:15:07 / 人气:225


量子比特|微信官方账号QbitAI
优化器在大语言模型的训练中占用了大量的内存资源。
现在有了新的优化方法,在保持性能不变的情况下,内存消耗减少了一半。
该成果由新加坡国立大学创造,获得ACL会议优秀论文奖,并已投入实际应用。
随着大语言模型的参数越来越多,训练时的内存消耗问题更加严重。
研究小组提出了CAME优化器,它在降低内存消耗的同时具有与Adam相同的性能。
CAME optimizer在几个常用的大规模语言模型的预训练中取得了与Adam optimizer相同甚至更好的训练性能,对大批量的预训练场景表现出更强的鲁棒性。
再者,通过CAME优化器训练大规模语言模型,可以大大降低大规模模型训练的成本。
实现方法
CAME optimizer由Adafactor optimizer改进而来,在大规模语言模型的预训练任务中往往会导致训练性能的损失。
Adafactor中的非负矩阵分解运算必然会在深度神经网络的训练中产生误差,而这些误差的修正是性能损失的来源。
通过比较发现,当初始值mt和当前值T之间的差小时,mt的置信度较高。
受此启发,团队提出了一种新的优化算法。
下图蓝色部分是CAME与Adafactor相比的增加。
CAME优化器基于模型更新的置信度来校正更新量,并对引入的置信度矩阵执行非负矩阵分解操作。
最终,CAME成功的用Adafactor的消耗获得了Adam的效果。
同样的效果只消耗一半的资源。
使用的团队分别来训练伯特,GPT-2和T5模型。
之前常用的Adam(效果更好)和Adafactor(消耗更低)是衡量CAME性能的参考。
其中,在训练BERT的过程中,CAME只用了一半的步骤就达到了和Adafaactor一样的准确率。
△左侧为8K刻度,右侧为32K刻度。对于GPT-2来说,就损失和混乱而言,考恩的表现非常接近亚当。
在T5模型的训练中,CAME也表现出类似的结果。
对于模型的微调,进来精度的表现不输于基准。
在资源消耗方面,使用PyTorch用4B数据训练BERT时,CAME消耗的内存资源比基准测试减少了近一半。
团队介绍
新加坡国立大学HPC-AI实验室是由尤杨教授领导的高性能计算和人工智能实验室。
实验室致力于高性能计算、机器学习系统和分布式并行计算的研究和创新,推动其在大规模语言模型等领域的应用。
实验室的负责人尤杨是新加坡国立大学计算机系的系主任(总统级年轻教授)。
2021年,尤杨入选福布斯30岁以下精英榜(亚洲),并获得IEEE-CS超级计算杰出新人奖。目前的研究重点是大规模深度学习训练算法的分布式优化。
本文第一作者罗阳是该实验室的硕士生。他目前的研究重点是大型模型训练的稳定性和高效训练。

作者:恒达娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 恒达娱乐 版权所有