为什么伟大的人工智能产生懒惰的人类

标签:
it杂谈 |
为什么伟大的人工智能产生懒惰的人类
沃顿商学院副教授伊桑·莫利克(Ethan Mollick)解释为什么我们不得不破解机器伙伴问题。
THE
PRESENT

Jeremy Bishop / Unsplash / Big Think / Ana Kova
关键要点
研究人员运行了一项其中一组顾问用人工智能帮助工作另一组则以标准方式工作的实验。
研究显示,人工智能辅助组在几乎所有绩效测量上都优于无人工智能组。
然而,人工智能辅助小组也倾向于过度依赖计算机系统,这为错误溜进他们的工作打开可能性。
摘自:共智:与人工智能工作和生活
理论上分析人工智能对工作的影响是一回事而测试它是另一回事。我一直与一个研究团队工作在做这个上,包括哈佛大学社会科学家阿夸(Fabrizio Dell'Acqua)、麦克否兰(Edward McFowland III)和拉克哈尼(Karim Lakhani)以及来自华威商学院的阿萨富(Hila Lifshitz-Assaf)和麻省理工学院的凯乐格(Katherine Kellogg)。我们有过波士顿咨询集团(BCG)的帮助,波士顿咨询集团是世界顶级管理咨询机构之一,运行这项研究,近800名顾问参与这个实验。
顾问被随机分为两组:一组必须以标准方式做工作,另一组要用 GPT-4,这是 169 个国家/地区中的每个人都可以使用的大型语言模型(LLM )的现成香草版本。然后,我们给他们进行了一些人工智能培训并用计时器让他们松散的完成被波士顿咨询集团设计的看起来像顾问的标准工作一样的18 项任务。有创造性的任务(“针对服务不足的市场或运动提出至少 10 个新鞋的想法”)、分析任务(“根据用户细分鞋类行业市场”)、写作和营销任务(“为您的产品起草新闻稿营销文案”)和说服性任务(“给员工写一份鼓舞人心的备忘录,详细说明为什么你的产品会胜过竞争对手”)。我们甚至检查了鞋业公司的高管来确保这项工作是现实的。
与人工智能工作的团队比没有人工智能的顾问做得更好。我们尽我们所能的测量结果——观察顾问的技能或使用人工智能对结果进行评分而不是使用人工评分员——但效果在 118 种不同的分析中坚持存在。人工智能驱动的顾问速度更快,他们的工作被认为比他们的同行更有创意、写得更好、分析能力更强。
但一个更仔细的观察数据揭示了某些更令人印象深刻和有些担忧的事情。尽管顾问们被期望使用人工智能来帮助他们完成任务,但人工智能似乎正在完成大部分工作。大多数实验参与者只是简单的粘贴他们被问到的问题并得到非常好的答案。同样的事情也发生在由麻省理工学院的经济学家诺伊(Shakked Noy)和张(Whitney Zhang)所做的写作实验中——大多数参与者一旦人工智能为他们创建它甚至不烦恼编辑人工智能的输出。当人们第一次使用人工智能时这是我反复看到的一个问题:他们只是粘贴他们被问到的确切问题然后让人工智能回答它。与人工智能合作是有危险的——当然,我们让自己变得多余是有危险的,但我们过分依赖人工智能工作也危险。
我们看到了自己的危险,因为波士顿咨询集团又设计了一项任务,这项任务被精心挑选来确保人工智能不能得出正确的答案——一个会在在“锯齿状前线”之外的答案。这并不容易,因为人工智能在广泛的工作中是出色的,但我们识别了一项结合了一个棘手的统计问题和一个有误导性数据的任务。没有人工智能帮助的人类顾问有84%的时间把问题做对了,但当顾问使用人工智能时他们做得更糟——只有60%到70%的时间把问题做对了。发生了什么事?
强大的人工智能使顾问更有可能在方向盘上睡着了并当它算了时犯了大错误。Ethan Mollick
在另一篇论文中,阿夸展示为什么过度依赖人工智能能适得其反。他发现用高质量人工智能的招聘人员变得懒惰、粗心大意,而且在他们自己的判断中更差。他们错过了一些优秀的求职者,并做出了比使用低质量人工智能或毕竟没有人工智能的招聘人员更糟糕的决定。他雇佣了 181 名专业招聘人员并给了他们一项棘手的任务:基于他们的数学能力评估 44 份工作申请。这些数据来自一项国际成人技能测试,因此数学成绩从简历中不明显的。招聘人员获得了不同程度的人工智能帮助:有些有好有坏的人工智能支持,有些则没有。他衡量了他们是多准确的、多快的、勤奋程度和信心。
拥有更高质量人工智能的招聘人员比拥有低质量人工智能的招聘人员更糟糕。他们在每份简历上花费的时间和精力更少,盲目的遵循人工智能的建议。随着时间他们也没有改善。另一方面,用人工智能质量较低的招聘人员是更警觉、更挑剔、更独立的。他们改善了他们的与人工智能的互动和他们自己的技能。阿夸开发了一个数学模型来解释人工智能质量和人类努力之间的权衡。当人工智能非常好时,人类没有理由来努力工作和关注。他们让人工智能接管而不是将其用作为一个工具,这能损害人类的学习、技能发展和生产力。他称之为“在方向盘上睡着了”。
阿夸的研究指向在我们与波士顿咨询集团顾问的研究中发生的。强大的人工智能使顾问更有可能在方向盘上睡着了,并当它算了时犯了大错误。他们误解了锯齿状前线的形状。
https://bigthink.com/the-present/why-great-ai-produces-lazy-humans/