加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

里程碑创新(续)

(2025-03-22 13:28:14)
标签:

杂谈

分类: 雜感

里程碑创新(续)

里程碑创新(续)

这是2025-1-31微博的姊妹篇。

-A-

深度求索(DeepSeek)知识蒸馏通过将大模型(教师模型)的知识迁移到小模型(学生模型),在保持性能的同时大幅降低计算成本和部署难度。这对解决大模型的高能耗、高推理成本等问题至关重要。

随着GPT-4Gemini等千亿级模型的涌现,模型压缩与高效推理成为刚需。高效的蒸馏技术可推动大模型在边缘计算、移动设备等场景落地。

-B-

318日,美国圣何塞年度GTC大会,在DeepSeek R1引发的冲击后,英伟达算力进入推理时代后,它代表的规模化不再成立?

黄仁勋给出回答,推理的时代,AI会思考和推理,能解决更多的问题。Scaling Law从一个变成了三个。扩展定律(scaling law)和算力实际上,如今的算力需求比我们去年预估的高出了100倍。今天,电脑的地位彻底发生改变,以往它是软件提取信息的地方,现在它是产生Token的地方,它是AI工厂。而作为一个工厂,就要计算投入产出比。

-C-

AMD CEO苏姿丰赞扬DeepSeek,称其模型和算法的创新推动了AI应用的普及。她特别提到DeepSeek-R1模型AMDDeepSeek-V3模型集成到其Instinct MI300X GPU上,并通过SGLang优化,提升了AI推理性能。与中国本土企业的合作,并在硬件支持、软件优化及开源社区合作方面投入了大量资源这一合作不仅为双方带来了直接的市场收益,还可能推动整个行业向更高效、更低成本的AI解决方案发展。

-D-

黄仁勋强调的Scaling Law扩展法则”演进(从单一到三维):原指模型参数量与性能的正相关关系,新三维可能指模型规模、数据质量、算法效率的协同优化,反映对AI基础能力突破的关注,强调技术天花板提升。

苏姿丰聚焦的“低成本训练”:属于技术普惠化路径,通过架构创新(如MoE)、训练方法优化等手段降低边际成本,解决的是技术落地门槛问题。

最近,微软CEO纳德拉在专访:未来5年,系统和端侧架构急需DeepSeek式创新,完整系统堆栈和产品共同构成竞争优势2025-3-22老邓)

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有