ChatGPT与概率论、贝叶斯定理
(2023-04-16 12:00:00)分类: 军事与科技 |
ChatGPT与概率论,即贝叶斯定理
2023年04月07日
ChatGPT问世,震撼了互联网。
它基本搞定了自然语言的理解和生成,开辟了人机自然交流的新纪元。
人工智能的崛起,来源于计算机的飞速发展、云计算的兴起、大数据时代的来临。
其中,与大数据有关的数学基础主要是概率论。它与几百年前的一个人名有关:贝叶斯。
概率论和贝叶斯
世界充满了不确定性,处处是概率,万物皆随机。小到买彩票,大到星辰宇宙和人工智能,都与概率相关。
托马斯·贝叶斯当年研究一个“白球黑球”的概率问题。概率问题可以正向计算,也能反推回去。
例如,盒子里有10个球,黑白两种颜色。如果我们知道10个球中5白5黑,那么,从中随机取出一个球,是黑的概率是多大?
这是正向计算概率。贝叶斯更感兴趣的是反过来的“逆概率问题”:预先不知道盒子里黑球白球数目的比例,只知道总共是10个球,随机拿出3个球,发现是2黑1白。逆概率要从这个样本(2黑1白),猜测盒子里白球黑球的比例。
为了解决逆概率问题,贝叶斯提供了贝叶斯定理。
应用贝叶斯定理,从“先验概率”计算“后验概率”。
贝叶斯定理的意义
当年,贝叶斯的“逆向概率”研究和导出的贝叶斯定理,如今,其重要意义真正显现出来。
探知未知概率的方法,先有一个先验猜测,然后结合观测数据,修正先验,得到更为合理的后验概率。
当不能准确知悉某个事物本质时,可依靠经验去对未知世界步步逼近,进而判断其本质。
如此重要的成果,他生前却并未发表。是他死后的1763年,才由朋友发表的。
如今,贝叶斯定理是人工智能中机器学习之基础框架。
先主观猜测一个值,然后根据经验事实不断修正,最后得到客观世界的本质。
这正是科学的方法,也是人类从儿童开始,认知世界(学习)的方法。
贝叶斯公式概括了人们学习过程的原则,配合大数据的训练,便有可能更确切地模拟人脑,教会机器“学习”,加速AI的进展。
机器如何学习?
教机器学习,实际上就是要学会如何处理数据,这也是大人教孩子学会的东西:从感官得到的大量数据中挖掘出有用的信息来。如果用数学的语言来叙述,就是从数据中建模,抽象出模型的参数。
机器学习包括“回归”、“分类”等主要功能。
回归是统计中常用的方法,目的是求解模型的参数,以便“回归”事物的本来面目。
分类是将事物“分门别类”,也是人类从婴儿开始,对世界认知的第一步。孩子看到“天上飞的鸟、飞机”,也看到“水中的鱼、潜艇”等,就能将这些事物分成“飞物”和“游物”两大类。
贝叶斯公式也可以将数据作分类。
如“朴素贝叶斯分类器”:“朴素”的意思是说,数据中表达的信息是互相独立的。水果的“长、甜、黄”三项特征互相独立。“贝叶斯”一词便表明,此类分类器利用贝叶斯公式来计算后验概率。
当你给我一个又长、又甜、又黄的水果,曾被1000个水果训练过的贝叶斯分类器就得出的结论:这个新水果不可能是苹果,有很小的概率是梨,最大的可能性是香蕉。