美国的李飞飞团队训练出s1模型,是怎么回事
(2025-02-07 19:04:53)
标签:
365 |
美国的李飞飞团队训练出s1模型,是怎么回事
李飞飞团队用不到50美元训练出名为s1的人工智能推理模型,引发了广泛关注。以下是相关情况的详细说明:
模型训练背景
基础模型:s1模型并非从零开始训练,而是基于阿里云通义千问(Qwen)模型进行监督微调。同时,其训练过程中还参考了谷歌的推理模型Gemini
2.0 Flash Thinking Experimental。
数据筛选:研究人员构建了一个小型数据集s1K,仅包含1000个经过精心挑选的问题及其答案,并附上“推理”过程。这种高质量的数据筛选是s1模型成功的关键因素之一。
训练过程
硬件资源:使用了16个英伟达H100
GPU,训练时间为26分钟。
成本:云计算费用不到50美元,但需要注意的是,这仅是模型微调阶段的计算成本,并不包括模型预训练等其他成本。
模型性能
优势:在数学和编码能力测试中,s1模型的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型相当。例如,在AIME24竞赛数学题上,s1-32B的表现较o1-preview高27%。
局限性:s1模型的训练数据量有限,其在其他复杂任务场景中的表现尚未充分验证,且与DeepSeek-R1
800K数据蒸馏出的32B模型相比仍有差距。
技术创新
知识蒸馏技术:s1模型的核心突破在于知识蒸馏技术的创新应用。通过“师生框架”,将大模型的复杂推理能力浓缩至轻量化架构中,避免了从零开始构建模型的资源消耗。
测试时间干预:研究团队采用了test-time
scaling方法,通过控制测试时间计算,优化模型性能。
行业影响
模型训练平民化:s1模型的出现标志着高效AI模型训练新时代的到来,其低成本训练方式为资源有限的团队提供了机会。
对现有模型的挑战:s1模型的出现引发了行业对现有高成本模型训练模式的反思,同时也引发了对模型知识产权和数据使用的讨论。