里程碑创新(续)

标签:
杂谈 |
分类: 雜感 |
里程碑创新(续)
这是2025-1-31微博的姊妹篇。
-A-
深度求索(DeepSeek)知识蒸馏通过将大模型(教师模型)的知识迁移到小模型(学生模型),在保持性能的同时大幅降低计算成本和部署难度。这对解决大模型的高能耗、高推理成本等问题至关重要。
随着GPT-4、Gemini等千亿级模型的涌现,模型压缩与高效推理成为刚需。高效的蒸馏技术可推动大模型在边缘计算、移动设备等场景落地。
-B-
3月18日,美国圣何塞年度GTC大会,在DeepSeek R1引发的冲击后,英伟达算力进入推理时代后,它代表的规模化不再成立?
黄仁勋给出回答,推理的时代,AI会思考和推理,能解决更多的问题。Scaling Law从一个变成了三个。扩展定律(scaling law)和算力实际上,如今的算力需求比我们去年预估的高出了100倍。今天,电脑的地位彻底发生改变,以往它是软件提取信息的地方,现在它是产生Token的地方,它是AI工厂。而作为一个工厂,就要计算投入产出比。
-C-
AMD CEO苏姿丰赞扬DeepSeek,称其模型和算法的创新推动了AI应用的普及。她特别提到DeepSeek-R1模型。AMD将DeepSeek-V3模型集成到其Instinct MI300X GPU上,并通过SGLang优化,提升了AI推理性能。与中国本土企业的合作,并在硬件支持、软件优化及开源社区合作方面投入了大量资源,这一合作不仅为双方带来了直接的市场收益,还可能推动整个行业向更高效、更低成本的AI解决方案发展。
-D-
黄仁勋强调的“Scaling Law扩展法则”演进(从单一到三维):原指模型参数量与性能的正相关关系,新三维可能指模型规模、数据质量、算法效率的协同优化,反映对AI基础能力突破的关注,强调技术天花板提升。
苏姿丰聚焦的“低成本训练”:属于技术普惠化路径,通过架构创新(如MoE)、训练方法优化等手段降低边际成本,解决的是技术落地门槛问题。
最近,微软CEO纳德拉在专访时谈道:未来5年,系统和端侧架构急需DeepSeek式创新,完整系统堆栈和产品共同构成竞争优势。(2025-3-22老邓)