潘家毅团队用30美元搞了一个创新模型_人在远方

个人资料

微博

正文字体大小：大中小

潘家毅团队用30美元搞了一个创新模型

(2025-02-09 19:45:37)

标签：

潘家毅团队用30美元搞了一个创新模型

潘家毅（Jiayi Pan）团队仅用30美元就成功复现DeepSeek R1-Zero的核心功能，并开发出了开源项目TinyZero。

项目背景

DeepSeek是一家总部位于杭州的开源人工智能初创公司，其推出的R1-Zero模型以极低的训练成本震惊了科技界。潘家毅团队的TinyZero项目旨在通过低成本的方式实现先进的模型性能，进一步扩展较小模型的能力。

研究方法

基础模型：团队从一个基本的语言模型开始，并结合提示和一个基础事实奖励机制。

强化学习应用：在名为“Countdown”的数学游戏中运行强化学习算法，使模型能够逐步发展出自验证和搜索能力。

问题解决策略：模型最初可能只是随机猜测答案，但随着时间推移，它学会了提出答案、验证其正确性并通过多次迭代进行修正，最终找到正确的解决方案。

成本与效益

与市场上其他服务相比，TinyZero的训练成本仅为30美元，而OpenAI的API每百万个输入token收费15美元，DeepSeek-R1的每百万个输入token费用为0.55美元。这表明TinyZero在成本上具有显著优势。

模型规模与性能

团队尝试了不同参数量的基础模型（从5亿到70亿参数），结果显示，随着模型参数数量的增加，其解决问题的能力显著增强。特别是当模型拥有30亿参数时，它能够在更少的步骤内找到正确答案。

开源与推广

TinyZero的代码已在GitHub上公开，供其他开发者参考和修改。潘家毅希望这个项目能够使强化学习研究更加普及。

未来展望

尽管目前TinyZero仅在Countdown游戏中进行了测试，但其低成本、开源的特点为AI研究的普及和推广提供了新的思路。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report