李开复谈：大模型训练多快好省_zhouren

http://blog.sina.com.cn/u/2726234437

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

李开复谈：大模型训练多快好省

(2024-06-26 15:06:53)

标签：

杂谈

分类：雜感

李开复谈：大模型训练多快好省

引言：当前大模型决策效率低，未来5年需全新架构替代Transformer和Diffusion。提升模型规模，需高效实现Scaling Law，寻找算力、算法、数据等新转化，实现大模型小型化，达到商业模式。（通用AGI之路）

近日，媒体专访李开复说，阿里云助力零一万物大模型训练多快好省。

模型和Al infrastructure（基础架构）我们的Al infrastructure基础架构，是做了很多工作，编译的优化

手写融合算子各种的手段，还有用上了FP8的end to end训练，这些都是我们的一些特色。

让我们能够用更少的钱，训练出同样好的模型，在这个训练的过程中，阿里云也提供了很多帮助，阿里云的平台，和大模型训练的相关功能，比如说人工智能平台PAI上的，训练卡死检查，阿里云也提供了很多帮助，阿里云的灵骏平台，提供了K8S的调度插件接口，在这些基础上，零一万物的infra团队，根据我们自己的需求，也开发了一些故障检测的插件，让整个训练能够更稳定，非常感谢阿里云团队，和零一万物的团队。

一旦训练过程中，出现了故障，这个团队就非常快速的能够定位并解决，进一步保障了我们的训练效率。（2024-6-26老邓）

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：智读“黄河上中游局数字孪生工作要点”

后一篇：尝新“无旁白视频”一得

新浪BLOG意见反馈留言板　欢迎批评指正