1-29四两拔千斤算法pK暴力美学算力
(2025-02-26 08:45:32)
四两拔千斤算法pK暴力美学算力
Meta和Open ai是代表AI开源和闭源的两个公司。美国硅谷的华人视频报导了Meta公司的工程师正在疯狂拆解Deepseek大模型。其中之一的原因是探索AI的技术路径。
Meta和open AI的传统技术进路是纯粹关注算力,算力强大代表技术的竞争优势,因而投资于芯片集成比拼算力。算力的大小强弱用GP∪小时来衡量,说白了就是一个模型需要多少个GPU,多少个小时才能完成训练。所用GPU越少,时间越少,成本越低,性能越优,反之则越高。因为GPU特别昂贵。最先进英伟达H100GPU,单卡芯片是2.5-3万美元,折合rmb18~22万元。meta的Llama和open AI的Chatgpt需要几万张gpu和几个月的时间才能完成训练。这里购买gpu的资金就要上亿美元,加上这么多gpu要用几个月的时间,所消耗的人力电力成本是天文数字。Llama成本是3000多万个GPU小时,总成本超5亿美元。Deepseek-R1仅仅用了200多个GPU小时,总成本只有500多万美元。这就是说,不到Llama的1/10。性能一点也不差。这就引发了硅谷的震动。有一位硅谷高管说,Deepseek-R1总成本还不如一个高管的年薪。这引发了科技界对AI顶尖技术“大力出奇迹”技术路径的批判,伯克利大学一位资深教授就说“中国deep seek揭示了一个残酷的事实,AI大模型的顶尖训练未必需要天文数字的投入”……纯粹关注暴力算力忽视了算法的技术进路式微了。英国《经济周报》认为deepseek让世界“看到改变游戏规则的可能性……”实际上,这只是两条技术路径的竞争,美国暴力算力路径与中国巧力算法路径的竞争。谁胜谁负都离不开GPU,打倒英伟达的不是算力芯片,未来可能是算法芯片。
Meta和Open ai是代表AI开源和闭源的两个公司。美国硅谷的华人视频报导了Meta公司的工程师正在疯狂拆解Deepseek大模型。其中之一的原因是探索AI的技术路径。
Meta和open AI的传统技术进路是纯粹关注算力,算力强大代表技术的竞争优势,因而投资于芯片集成比拼算力。算力的大小强弱用GP∪小时来衡量,说白了就是一个模型需要多少个GPU,多少个小时才能完成训练。所用GPU越少,时间越少,成本越低,性能越优,反之则越高。因为GPU特别昂贵。最先进英伟达H100GPU,单卡芯片是2.5-3万美元,折合rmb18~22万元。meta的Llama和open AI的Chatgpt需要几万张gpu和几个月的时间才能完成训练。这里购买gpu的资金就要上亿美元,加上这么多gpu要用几个月的时间,所消耗的人力电力成本是天文数字。Llama成本是3000多万个GPU小时,总成本超5亿美元。Deepseek-R1仅仅用了200多个GPU小时,总成本只有500多万美元。这就是说,不到Llama的1/10。性能一点也不差。这就引发了硅谷的震动。有一位硅谷高管说,Deepseek-R1总成本还不如一个高管的年薪。这引发了科技界对AI顶尖技术“大力出奇迹”技术路径的批判,伯克利大学一位资深教授就说“中国deep seek揭示了一个残酷的事实,AI大模型的顶尖训练未必需要天文数字的投入”……纯粹关注暴力算力忽视了算法的技术进路式微了。英国《经济周报》认为deepseek让世界“看到改变游戏规则的可能性……”实际上,这只是两条技术路径的竞争,美国暴力算力路径与中国巧力算法路径的竞争。谁胜谁负都离不开GPU,打倒英伟达的不是算力芯片,未来可能是算法芯片。
后一篇:1-30进寺祈福