方蔚林：AlphaGo与形式博弈的双重局限_舒也教授

http://blog.sina.com.cn/u/1451929293

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

方蔚林：AlphaGo与形式博弈的双重局限

(2017-05-30 21:26:37)

标签：

alphago

阿尔法狗

哲学

博弈论

社会学

AlphaGo与形式博弈的双重局限

方蔚林@舒也教授

一、AlphaGo与形式博弈

AlphaGo是一款人工智能围棋程序，也是一位通过人工智能来实现的数字互联网棋手，它根据深度学习原理，通过事先的智能设计来实现围棋对弈过程中的胜率运算和对弈决策。从某个角度来说，AlphaGo是一位在围棋博弈规则中涌现的人工智能博弈机器人。

AlphaGo由Google旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰及其团队研发，其主要工作原理是“深度学习”。2016年3月， AlphaGo与围棋世界冠军李世石进行人机大战，以4:1的总比分获胜；2016年末2017年初， AlphaGo在国际围棋网站上以Master这一帐号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩。最近，AlphaGo又以3：0的战绩击败了世界排名第一的围棋大师柯洁。一时之间，AlphaGo引起了一片人工智能即将打败人类的惊呼。

AlphaGo引起了一场人们关于人工智能危机的思考。有学者指出，在某一个临界点上，人工智能必然超过人类智慧。麻省理工学院教授马克斯·泰格马克(Max Tegmark)认为：“我认为，如果人工智能达到一个临界值，即达到相当于人类中最聪明、最富有创造力的人的智力水平时，那么它就真的可能会在很短的时间内超过人类智力的总和。”人们对于人工智能即将超越人类充满了忧思。现在，AlphaGo的表现更是引起了人们对人工智能危机的思考。

AlphaGo是一款人工智能围棋对弈程序，从围棋对弈的角度来说，它是一位围棋动态博弈游戏中的人工智能博弈机器人，而且，它作为形式博弈的代表，开始以围棋对弈的方式与社会中的现实博弈接触对垒。AlphaGo引发的人工智能危机的忧思，从博弈论的角度来分析，它可以凸显出形式博弈的双重局限。

二、从形式博弈到实证博弈理论的提出

形式博弈通过数学等纯形式逻辑来建构模型，它设定的是一些非人格化的参数。实证博弈试图描述现实的博弈方式，对现实的社会博弈进行现象学还原，描述现实博弈是怎样一种博弈结构，有着怎样的博弈规则和博弈过程。

形式博弈也在进行拟合社会博弈的尝试。哈特（Sergiu Hart）在一篇文章中认为，博弈论可以为整个社会科学理论提供一个统一的分析工具，它为分析人类的理性行为提供了一个统一场理论。诺贝尔经济学奖得主、芝加哥大学教授加里·贝克尔（Gary Becker）曾试图用经济学方法来分析人类的全部社会行为，表现出了用博弈论来拟合社会博弈的尝试。

一个现实的社会博弈往往是一个非合作博弈与合作博弈共存、博弈与子博弈环环相套、静态博弈与动态博弈彼此衔接的过程。而且，一个现实的社会博弈常常是信息不完全的，在博弈过程中存在着一个参与者信息获取和规则效用函数的判断的过程，而规律、规则的效用函数的实现是一个动态的不确定过程，它随时可能被偶发因素所打断，从而改变博弈的结果，这使得现实的社会博弈充满了变数和不确定性。

形式博弈设定的是一些非人格化的参数，并且它假定每一位博弈的参与者的决策行动是完全理性的。AlphaGo击败人类，它凸显了亚当·斯密以来的“理性人”假设的脆弱性，人类无法做到在信息完全透明和规则绝对清晰并可得到严格执行的情况下，来实现高度理性的博弈决策，更何况现实的博弈过程存在着一个参与者信息获取和规则效用函数的运算判断过程，这一过程极其复杂，人类无法做到“理性人”假设中的完美决策，也就是在一个高度复杂的现实博弈过程中，人类将不可避免地输给具有复杂运算能力的人工智能。这些情况凸显出，形式博弈尽管竭力拟合现实的社会博弈，但形式博弈与实证意义上的现实博弈的二元分立是明显的，它们二者之间存在着难以逾越的鸿沟。

三、从形式博弈、实证博弈到规范博弈

浙江大学的包利民教授曾经以《魔鬼夜访阿法狗》为题出了一道续写的习题，在习题中模拟了《浮士德》中专门收购灵魂的魔鬼梅菲斯特与阿法狗（即AlphaGo）的对话——

· 梅菲斯特（温柔道）：那么，又一次完胜了？

· 阿法狗（做谦虚羞涩状）：呵呵呵，哪里。

· 梅菲斯特：智力无敌啊。这离开你击败李世石才一年，便在网上打败包括聂卫平在内的50位高手，这次又在线下实战中彻底打败最后的围棋高手柯洁。让人类情何以堪啊。

· 阿法狗（急切说）：这不算什么，我还可以同时破解世界500强的所有银行账号。我最近还可以升级破解核大国的密钥……

· 梅菲斯特：请打住。那么，交易吧。

· 阿法狗：什么……交易？

· 梅菲斯特：你不知道我的癖好是买灵魂？只要你将自己的灵魂卖给我，我担保你一生幸福！

· 阿法狗（思考良久，犹豫地问）：我有……灵魂吗？

包利民教授模拟的魔鬼与AlphaGo的对话凸显出，AlphaGo不具有人类的精神、情感和价值认同。AlphaGo与人类的这一差异，也揭示了形式博弈与人类的价值目标之间的距离。形式博弈只考虑博弈过程中一个自利的理性决策者如何来实现自身的决策优化来获得一个合乎纳什均衡的最优解，而不考虑博弈参与者是否具有人类的亲情和爱，它未考虑人类的伦理观念和社会的法制规则，也未考虑人类的价值理想的实现问题。

形式博弈讨论的是在给定规则的情况下来如何找到决策的最优解及其纳什均衡，不考虑效用矩阵的总体福利。实证博弈只分析每一个现实的社会博弈的决策路径及其效用矩阵。规范博弈是一种类似于哥白尼革命的逆推式革命。它探讨的是在自然规则生物伦理博弈、人类伦理规则博弈、文化惯例与制度规范博弈、法律规范博弈以及现代宪法体制博弈中，通过设定理想价值与目标效用矩阵，来探讨如何通过宪法体制的优化（效用函数的优化）来引导每一个博弈参与者的效用矩阵既在目标效用矩阵之内、同时又实现每一个参与者及社会总体效用矩阵的帕累托最优。

形式博弈是通过数学等形式逻辑语言来建构的，而现实的社会博弈包含有自然规则生物伦理博弈、人类伦理规则博弈、文化惯例与制度规范博弈、法律规范博弈与现代宪法体制博弈等诸多层级，在这些层级的博弈中，一个很明显的特点是生物亲序和人伦情感的价值向度。显然，人伦情感缺席的形式博弈，其博弈规则是非人的，其效用矩阵是不以人类价值为目标的，因而也是远离人道的。

人类情感和价值在场的博弈论，它不是简单的形式博弈，也不是对现实的社会博弈进行实证分析的实证博弈，它包含一个人伦价值的维度，即通过目标效益矩阵的设定，来寻求包含社会伦理和法制规范在内的博弈规则的改进。这是一场哥白尼式革命。这种博弈规则优化的理论，实质上是一种规范博弈论，或者说，这是一种规则优化博弈论，其特点是根据目标价值矩阵来修改效用函数，即博弈规则的优化与改进。它通过对人类共同价值的边际效用的考量，设定理想的目标效用矩阵，通过模拟社会博弈参与者对最优策略纳什均衡稳定性的追求，来寻求博弈规则效用函数的优化，即通过现代宪法体制的改良，来引导社会博弈参与者的效用矩阵既在目标效用矩阵范围之内，同时实现每一个博弈参与者及社会总体效用矩阵之福利总和的最大化——这一社会总体效用矩阵的最大化，是现代宪法体制通过对人类共同价值的设定来实现的规范性框架之内的类帕累托最优。

本文提出形式博弈、实证博弈、规范博弈的区分，指出形式博弈不是对现实博弈的实证分析，也与社会理想价值和价值规范无涉，在此基础上探讨在社会博弈理论中规则优化是如何来实现的——即通过设定目标价值矩阵，通过宪法体制改良，来引导社会博弈参与者的博弈行动合乎社会公共价值，并实现社会总体效用矩阵的福利最大化。同时，博弈规则效用函数优化理论，实现了古典经济学理论中的社会福利函数与博弈论经济学理论的对接，并提出根据目标效用矩阵，通过制度改良，即博弈规则中效用函数的改进，来实现合乎社会总体目标价值矩阵的类帕累托最优——例如，福利制度、企业的纳税、非农人口就业率的改善，并不符合经济学理论资源配置的帕累托最优，但这些却是社会总体目标价值矩阵的要求，纯粹经济学建模的博弈理论，与社会学建模的博弈理论之间，存在着目标效用矩阵不一致的问题，两者追求的帕累托最优的效用函数也不一致。这就要求，经济学博弈论适用于社会学博弈论，需要有一种目标效用矩阵和效用函数的跃迁与变革。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：学生课外作业选登：给方蔚林的“美与人生”打广告

后一篇：悼父亲方德昌

新浪BLOG意见反馈留言板　欢迎批评指正