加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

要做AGI时代的微软

(2024-12-04 14:00:43)
标签:

杂谈

分类: 雜感

要做AGI时代的微软

阅读手札

要做AGI时代的微软

40年前,李开复的博士论文申请信中有这样一句话:AI是人类认识并理解自己的最后一里路,我希望加入到这个全新绽放、充满前景的未来科学领域。

大模型应用演进。第一阶段最早出现的会是以语言模型为基座的生产力工具;随后,迎来以多模态理解为基础的AI搜索;再下是基于多模态生成的“多模态社交/娱乐”最后,基于全模态+AI-Agent(智能体)的“本地生活和电商”等应用迎来爆发期。

-1-

202212GPT-3.5发布时,MMLU(大规模多任务语言理解)的准确率是70%,但是不到两年的时间之后,GPT-4o已经达到了92%以上,对于大部分应用场景来说已经绝对够用了。推理成本方面,GPT-432K20233月份每百万Token(词元,即文本中单位最小的语义单元)的价格为75美元,但是到20248月,GPT-40每百万Token的价格已经降到了4.4美元,降幅将近20

从这些方面来看,Super App(超级应用程序)的到来是必然的。回眸iPhone推出的时候,很多底层技术都已经存在了,但是为什么诺基亚、黑莓都没能做出iPhone?就是因为乔布斯看到了未来的趋势,将软件、触屏等元素全部结合在一起。从iOS 1iOS 17,iPhone(系列智能手机)、iTunes(多媒体播放和管理)到iPad(平板电脑),苹果最终构建起了一个伟大的生态系统。

-2-

今天,我们又看到了同样的机会。算力问题始终是大模型赛道的一个瓶颈。OpenAIxAIGoogleMeta都在进行着算力的军备竞赛。反观,算力更大就代表我们绝对没有机会?在很早的时候,零一万物就有这样的认识,当GPU这么贵,我们如何把它用好?能否让一张GPU发挥出两张GPU的效果?

客观事实是GPU的使用率,从头到尾使用FP8精度进行千亿参数模型训练,同样的一张GPU,我们能够挤出更多价值来。模型的性能表现,还要考虑到创新模型架构、优化数据配比等等各方面的细节,Yi-Lightning(闪电)跻身世界第一梯队的模型表现就是最好的证明。“未来AI 2.0技术将如同电力。”模型性能提升与推理成本下降对整个生态的影响非常大,应用场景也从最开始比较单一的文本创作,扩展到了医疗、物流、法律等等很多领域。

还有工程能力的完善——针对不同的场景需求,出现了非常丰富的工具链条来搭配应用。零一万物也推出了比如RAG(进度和状况)、Function Calling(指令方式)等工具。让企业级解决方案更简单易用、更契合业务场景。

-3-

要拉齐世界第一梯队的水位,要有自己的独特打法、应该从不同的维度去考量巨头和初创公司之间的评判标准,比如,Google团队是2,000人,OpenAI总人数也早就超过了1,000人。而零一万物资深模型和AI Infra团队加起来也不到100人,而且我们模型训练所使用的GPU算力不到他们的1/10,我们的模型尺寸也不到其1/10

仅仅一年时间,我们就从落后710年的时间缩小到5个月。今年1016日,我们也发布了新模型Yi-Lightning ,在模型性能超过Yi-Large跻身世界第一梯队的同时,推理成本更低、推理速度极快。Yi-Lightning训练比xAI节省了97.5%,推理又比OpenAI GPT-4o便宜31倍。我们与硅谷之间的差距有望进一步追平。

两年前,一个平均的大模型能答对的问题难度大概跟一个普通人差不多,但是今天,把几百个领域的顶尖人才放到一个房间里去回答问题,大概也只能跟AI大模型打平。零一万物才创立一年多,Yi-Lightning就超越了GPT-4o5月版本),Yi系列模型已经是跻身世界第一梯队的大模型了。(2024-12-4老邓

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有