李开复谈:大模型训练多快好省

标签:
杂谈 |
分类: 雜感 |
李开复谈:大模型训练多快好省
引言:当前大模型决策效率低,未来5年需全新架构替代Transformer和Diffusion。提升模型规模,需高效实现Scaling Law,寻找算力、算法、数据等新转化,实现大模型小型化,达到商业模式。(通用AGI之路)
近日,媒体专访李开复说,阿里云助力零一万物大模型训练多快好省。
模型和Al infrastructure(基础架构)我们的Al infrastructure基础架构,是做了很多工作,编译的优化
手写融合算子各种的手段,还有用上了FP8的end to end训练,这些都是我们的一些特色。
让我们能够用更少的钱,训练出同样好的模型,在这个训练的过程中,阿里云也提供了很多帮助,阿里云的平台,和大模型训练的相关功能,比如说人工智能平台PAI上的,训练卡死检查,阿里云也提供了很多帮助,阿里云的灵骏平台,提供了K8S的调度插件接口,在这些基础上,零一万物的infra团队,根据我们自己的需求,也开发了一些故障检测的插件,让整个训练能够更稳定,非常感谢阿里云团队,和零一万物的团队。
一旦训练过程中,出现了故障,这个团队就非常快速的能够定位并解决,进一步保障了我们的训练效率。(2024-6-26老邓)
后一篇:尝新“无旁白视频”一得