加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

五款主流AI大模型的数学考试

(2023-11-16 11:51:54)
标签:

365

五款主流AI大模型的数学考试

电脑报2023-09-09 22:11(有删减)

中文大模型扬帆起航

垂直大模型成AI应用落地关键

02

首批八家大模型正式上线

从申请内测到为全民服务,我国中文大模型终于进入全面落地阶段。

今年7月10日《生成式人工智能服务管理暂行办法》发布,由国家网信办联合国家发改委、教育部、科技部等七部门审议通过,自2023年8月15日起施行。办法鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。法律、行政法规规定提供生成式人工智能服务应当取得相关行政许可的,提供者应当依法取得许可。外商投资生成式人工智能服务,应当符合外商投资相关法律、行政法规的规定。

8月31日,中国国内首批八家大模型通过《生成式人工智能服务管理暂行办法》(下称《办法》)备案,包括百度、智谱、百川、字节、商汤、中科院(紫东太初)、MiniMax、上海人工智能实验室等8个企业/机构的大模型可正式上线面向公众提供服务。当天百度搜索有超3亿次需求由生成式智能引擎解决,AI伙伴访问用户数突破400万,文心一言回答3342万个问题。在百度搜索界面点击AI按钮即可进入AI伙伴,提供文字、图像生成、智能搜索等功能。

首批8家大模型获批上线,标志着大模型行业在中国正式进入产品化落地阶段。后续,阿里、腾讯、科大讯飞等公司的大模型产品也有望陆续获批,进一步加速AI产品化落地。国内大模型产品的生态将逐步得以构建,服务也将逐步规范化,大模型行业将进入产品化落地的快车道。

03

未来大模型会进一步分化为通用、专用和特定场景。

市场普遍认为,从行业特征来看,通用大模型未来只可能是少数巨头最后胜出,主要考虑巨大的资金投入,基础大模型并不适用于数量众多的中小企业。通用大模型并不能解决很多企业的具体问题,而模型的大小,主要还是取决于企业用户的自身需求,企业的大模型应用需要综合考虑行业专业性、数据安全、持续迭代和综合成本等因素。

垂直行业的模型未来或成为大模型加速普及的关键,通用化域数据叠加行业数据,共同构成了产业大模型的训练数据来源。行业大模型的未来趋势特点还包括:场景集成化,AI原生化以及部署工业化等方面。

面对竞争日益激烈的语言大模型酣战,AI应用落地才是重中之重。
大模型的出现革新了人机交互的方式,所有的应用和平台都要基于大模型重新进行开发,大模型不仅激发了个人创新力,也给政企软件等带来了诸如应用效率提升、交互变革等新的机会。尽管这些模型处于扩展的早期阶段,但第一批跨功能的应用程序,在教育、金融、零售等多个行业开始落地践行。各行各业都将迅速整合大模型的能力,创造全新的商业价值。与其他颠覆性技术一样,这种变革一开始会缓慢发展,然后迅速加速。


04

垂直大模型的崛起


大模型意义在于对于生产力的巨额提升,比如把产品接入搜索引擎和办公软件。大模型参与者们需要面对这个问题——要为其寻找对应的应用场景和商业化途径。

今年7月,腾讯发布了《人机共生——大模型时代的AI十大趋势报告》,该报告指出,垂直领域应用将是大模型的主战场。随着生成式人工智能技术的飞速发展,它已经在多个领域展现出全新的商业价值。报告指出,金融行业、文化娱乐行业等头部机构预计会在一年内,在相对成熟的场景中尝试引入大模型以及生成式AI能力。

实际上,对垂直领域大模型的看好已经成为业界的共识。不少行业人士认为:能跑出来的中国大模型创业公司,很可能是垂直整合型。即,在做底层大模型的同时,自己找准一个主应用场景,收集用户数据并做快速迭代,两条腿走路,缺一不可。

而对于大模型的垂直化发展趋势,360创始人周鸿祎表示,在产业数字化的战略背景下,人工智能大模型未来机会在企业级增量市场,把大模型拉下“神坛”的关键就是发展“垂直化”大模型。周鸿祎认为,大模型的“垂直化”蕴含着产业数字化的巨大机会,并将成为中国在全球大模型技术竞争格局中的另一条突破路径。


周鸿祎表示,很多企业讨论大模型发展都隐含着走OpenAI之路的前提,但这条路短期内走起来面临着资源和资金等诸多难度。同时,OpenAI缺乏对行业的深刻理解,无法理解企业的通用数据集,并且存在着成本问题。周鸿祎认为,目前中国已经是“百模大战”了,未来可能“万模群舞”,如果企业都训练出来自己的小规模大模型,当大模型无处不在时,就会产生很多产业创新的机会。

05

重新定义教育行业的愿景

通用大模型“重文轻理”,在数学问题的解决、讲解、问答和推荐方面则存在明显的短板而在另一个层面,在通往通用人工智能的路上,数学推理能力很重要,全球有很多大型公司在做这方面的研究。


而根据好未来方面披露的MathGPT技术报告,在6个公开数学评测集合的测试结果中,好未来的MathGPT取得了多项测试的最高分数。同时,MathGPT在C-Eval的初高中的全科测试集合上均有不错表现。

对于使用者而言,研究数学问题不仅在于得到答案本身,更在于答案背后的解题原理、思路逻辑。与其他通用大模型相比,MathGPT能实现更高准确度的解题,也能把答案解析得更清楚、讲解得更明白,更好地满足用户使用AI产品解答数学问题的核心需求。

AI带来了重新定义教育行业的机会,大模型技术使得大规模的因材施教真正有了实现的可能。大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。在AI能力的加持下,“学生自学+AI答疑”的新型学习方式成为广泛的可能。学习者获得优质教学内容的门槛、成本降低,获得的教学内容个性化、精细化程度持续升高,可以实现千人千面的AI教学和答疑辅导,每个学生都能得到最适合自己的学习内容。

06

从小学到高中

五款主流AI大模型的数学考试

在专用模型落地的众多赛道中,教育具有相当强的吸引力。近年来,学而思、网易有道等教育企业也先后公布了自己在AI大模型领域方面的布局和进展


测试结果:


从测试结果看,目前中文大模型在面对数学思维题目的时候,依旧只能停留在小学生水平,定位垂直赛道的学而思MathGPT在数学上并未表现出全面领先其他大模型的水平,不过在小学组思维题目上,学而思MathGPT相对其他四个模型的优势还是比较明显的,不过从题目难度上看,三年级的提优部分内容基本可以拿下,但学而思MathGPT在面对4年级的提优内容时同样有些“无力”。


当然,好的一点是学而思MathGPT在答题架构设计上明显有了专业的构架,按照这个态势发展下去,只要有足够的训练和语料,再在算法的帮助下,未尝不能在垂直大模型领域闯出一条属于自己的路。

07


让大模型与细分行业做结合,是大模型落地的常见模式,但这种结合模式并不需要足够“大”,而需要足够“专”。在细分行业中专业的小模型,或许反而能在B端脱颖而出。以学而思MathGPT为代表的数学大模型想要进一步成长并满足教育需求,就需要源源不断地“投喂”高质量的数据进行训练,而这也是各教育领域AI大模型比拼的关键。


此外,作为一个生产力工具,AI带来的是效率的提升,而非真正的创新,在学习领域,AI可以给用户一些思路和启发,适当交互能够起到事半功倍的效果,但过度依赖绝对会成为学习大忌。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有