潘家毅团队用30美元搞了一个创新模型
(2025-02-09 19:45:37)
标签:
365 |
潘家毅团队用30美元搞了一个创新模型
潘家毅(Jiayi Pan)团队仅用30美元就成功复现DeepSeek
R1-Zero的核心功能,并开发出了开源项目TinyZero。
项目背景
DeepSeek是一家总部位于杭州的开源人工智能初创公司,其推出的R1-Zero模型以极低的训练成本震惊了科技界。潘家毅团队的TinyZero项目旨在通过低成本的方式实现先进的模型性能,进一步扩展较小模型的能力。
研究方法
基础模型:团队从一个基本的语言模型开始,并结合提示和一个基础事实奖励机制。
强化学习应用:在名为“Countdown”的数学游戏中运行强化学习算法,使模型能够逐步发展出自验证和搜索能力。
问题解决策略:模型最初可能只是随机猜测答案,但随着时间推移,它学会了提出答案、验证其正确性并通过多次迭代进行修正,最终找到正确的解决方案。
成本与效益
与市场上其他服务相比,TinyZero的训练成本仅为30美元,而OpenAI的API每百万个输入token收费15美元,DeepSeek-R1的每百万个输入token费用为0.55美元。这表明TinyZero在成本上具有显著优势。
模型规模与性能
团队尝试了不同参数量的基础模型(从5亿到70亿参数),结果显示,随着模型参数数量的增加,其解决问题的能力显著增强。特别是当模型拥有30亿参数时,它能够在更少的步骤内找到正确答案。
开源与推广
TinyZero的代码已在GitHub上公开,供其他开发者参考和修改。潘家毅希望这个项目能够使强化学习研究更加普及。
未来展望
尽管目前TinyZero仅在Countdown游戏中进行了测试,但其低成本、开源的特点为AI研究的普及和推广提供了新的思路。