《大数据时代》阅读笔记

分类: 西学经典 |
《大数据时代·生活、工作
与思维的大变革》
([英]维克托·迈尔-舍恩伯格 肯尼思·库克耶著 盛杨燕 周涛译 浙江人民出版社2013年1月第一版2月第一次印刷)
阅 读 笔 记
1.

这应该是一本比较前沿的著作,我是在《凤凰周刊》中读到介绍本书的文章后,通过互联网购买的。书中主要介绍了在信息化时代,大数据的概念、形成、性质,重点围绕大数据给人的思维、商业和管理带来的一系列变革和冲击进行了论述。
作者维克托·迈尔-舍恩伯格是牛津大学教授,被誉为“大数据时代的预言家”,曾任哈佛大学科研项目负责人,并是多个国家政府高级顾问;肯尼思·库克耶是《经济学人》数据编辑,曾任职《华尔街日报》《国际先驱论坛报》。
译者之一的周涛是电子科技大学教授、互联网科学中心主任。
——根据作者介绍等整理2013/9/14录
2.
世界的本质就是数据,大数据将开启一次重大的时代转型。
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。
从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。
——扉页P2
3.
最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领域中。
——P8
大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量。
——P8
今天,一种可能的方式,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。
——P9
4.
大数据开启了一次重大的时代转型,就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……
——P1《引文:一场生活、工作与思维的大变
革》2013/9/15录
建立在大数据基础之上的,当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
——P4
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。
——P16
数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
——P20
大数据对个人的影响是最惊人的。在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了。行业专家不会消失,但是他们必须与数据表达的信息进行博弈。
——P21
非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。
——P61-62
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。
——P97
量化一切,数据化的核心。
——P105
记录信息的能力是原始社会和先进社会的分界线之一。
——P105
几百年来,计量从长度和重量不断扩展到了面积、体积和时间。
——P106
数据化的实现有一点必不可少,那就是要从潜在的数据中挖掘出巨大的价值,然后揭示出新的深刻洞见。
——P109
iPhone本身就是一个“移动间谍”,一直在用户不知情的情况下收集位置和无线数据然后传回苹果公司;当然,谷歌的安卓手机和微软的手机操作系统也在收集这一类数据。
——P116
一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。
——P125
本质上世界是由信息构成的。
——P125
并非原子而是信息才是一切的本源。
——P125
将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
——P126
人类靠依靠自身判断做决定到依靠数据做决定的转变,也是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
——P180
我们往往倾向于把专业人才看得比全才更重要,也就是说尝试就是财富。然而,专业技能就像精确性一样,只适用于“小数据”时代,当时人类掌握的数据永远不够多也不够准确,所以需要依赖直觉和经验指导。在那个时代,经验是先决的,因为只有通过这种无法从书本上和别人口中得到的,埋藏在潜意识里的知识的积累,我们才能做出明智的决定。
——P181
借助限制信息滥用的规范而不是最初的审查来防止其(指大数据侵害个人隐私)泛滥。
——P219
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。
——P220
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。
——P230
拥有知识意味着掌握过去,现在更意味着能够预测未来。
——P239
现在大多数人都认为大数据是一个技术问题,应侧重于硬件和软件,而我们认为应当更多地考虑当数据说话时会发生什么。
——P240
5.
第一不是随机样本,而是全体数据。
第二不是精确性,而是混杂性。
第三不是因果关系,而是相关关系。
——目录P2
大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
——P39
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
拥有更大数据量所能带来的商业利益远远超过增加一点精确性。
——P56
要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
——P60
接受混乱,我们就能享受极其有用的服务,这些服务如果使用传统方法和工具是不可能做到的,因为那些方法和工具处理不了那么大规模的数据。
——P64
只要我们能够得到一个事物更完整的概念,我
们就能接受模糊和不确定的存在。就像印象派的画
风一样,近看画中的每一笔都感觉是混乱的,但是
退后一步你就会发现这是一幅伟大的作品。
——P65
当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。
——P66
大数据时代,……社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。
——P9
因果关系只是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用。
——P89
处在大数据时代,我们不再需要理论了,只要关注数据就足够了。这就意味着所有的普遍规则都不重要了,比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今重要的就是数据分析,它可以揭示一切问题。
——P93
大数据绝不会叫嚣“理论已死”,但它毫无疑
问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。
——P94
很多情况下,弄清楚“是什么”比找寻“为什么”更加重要,因为前者表明事实才是我们生活和思维的基础。这些问题可能没有答案。
——P239
6.
大数据的精髓在于我们分析信息时的三个转变:
一是我们可以分析更多数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再信赖于随机采样。
二是研究数据如此之多,以至于不再热衷于追求精确度。
三是因前两个转变促成,我们不再热衷于寻找因果关系。
——P17-18
7.
是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
——P167
8.
我们经常把“数字化”和“数据化”这两个概
念搞混,但是这两个概念的区分实际上非常重要。
“数据”这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。“数据化”——这是一种把现象转变为可制表分析的量化形式的过程。
数据化和数字化大相径庭,数字化指的是把模拟数据转换成用0和1表示的二进制码。
20世纪90年代,我们主要对文本进行数字化。随着过去的几十年里存储能力、处理能力和带宽的提高,我们也能对图像、视频和音乐等类似的内容执行这种转化了。
——P104
数字化是把模拟数据变成计算机可读的数据,与数据化有本质上的不同。
——P109
9.
一是数据再利用。
二是数据集整合(重组数据)。
三是寻找“一份钱两份货”(可扩展数据)。
——P135-141
10.
大约公元1世纪的时候,印度发明了一种自己的数字系统,它传播到了波斯,并在那里得到改善,而后传入阿拉伯国家,得到了极大的改进,这也就是今天使用的阿拉伯数字的前身。十字军东征给当地人民带来了彻头彻尾的灾难,但同时也把西欧文明带到了地中海东部,而其中最重要的引入就是阿拉伯数字。公元1000年,教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪,介绍阿拉伯数字的书籍被翻译成拉丁文,传播到了整个欧洲地区。这也就开启了算术的腾飞。
——P106
11.
统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。(大数据可能要颠覆统计学的基本方法)
——P29
12.
模拟数据也称为模拟量,相对于数字量而言,指的是取值范围是连续的变量或者数值,例如声音、图像、温度、压力等。模拟数据一般采用模拟信号,例如用一系列连续变化的电磁波或电压信号来表示。
——P12脚注
13.
也称为数字量,相对于模拟量而言,指的是取值范围是离散的变量或者数值。数字数据则采用数字信号,例如用一系列断续变化的电压脉冲(如用恒定的正电压表示二进制数1,用恒定的负电压表示二进制数0)或光脉冲来表示。
——P12脚注
14.
是统计学家、软件程序员、图像设计师与作家的综合体。
——P160
15.
又叫技术循环曲线,或者直接叫做炒作周期,是指新技术、新概念在媒体上曝光度随时间的变化曲线。
——P9脚注
16.
太字节:TB=240字节=1024GB
拍字节:PB=250字节=1024TB
艾字节:EB=260字节=1024PB=10亿GB
泽字节:ZB=1024EB
——P11、41脚注,P12
17.
谷歌公司每天要处理超过24拍字节的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。
——P11
南加利福尼亚大学安嫩伯格通信学院马丁·希尔伯特估算,2007年,人类大约存储了超过300艾字节的数据。而在所有存储的数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。而在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。
1986年时,世界上约40%的计算能力被运用在袖珍计算器上。
按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。
到2013年,世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。
——P11-13
人类存储信息量的增长速度比世界经济的增长速度快4倍,计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。
——P13
1439年发明印刷机后,从1453-1503年的50年间,大约有500万本书被印刷,比1200年前君士坦丁堡建立以来整个欧洲所有的手抄本还要多。
——P13-14
15世纪中叶,人类发明了印刷机,在这之后大约出版了1.3亿册图书。到2010年为止,也就是谷歌的数字化图书计划实行7年之后,大约有2000万册图书被扫描成了数字图书,这几乎相当于人类所有书写文明的15%。
——P111
18.
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。其余均为非结构化的数据,如网页、视频资源等。
——P64
19.
无形资产是公司账面价值与市场价值之间的差额。
20世纪80年代,无形资产在美国上市公司市值中约占40%,到2002年已增长为75%。无形资产早期仅包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。
——P153
20.
意为利用统计历史减少犯罪。
——P203注释
21.
对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。
——P82
22.
1994年由埃齐奥尼(哈佛大学首届计算机科学专业1986年本科毕业生)创建。他认为,世界就是一系列的大数据问题,而且他认为自己有能力解决这些问题。
——P5
23.
2003年。
——P10
24.
发生在公元前8000年苏美尔的商人用黏土珠记录出售的商品。
——P30
25.
据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒主导实施。
“人口普查”一词来源于拉丁语“censere”,意思是推测、估算。
——P30
26.
公元前3世纪,埃及的托勒密二世竭力收集了当时的所有书写作品,让亚历山大图书馆成为当时世界所有知识量的代表,当时的藏书量达到5万卷(纸草卷),包括《荷马史诗》、《几何原本》等。该馆建成时正值中国的战国末期。
——P13及脚注
27.
15世纪初大概有122本大部头。
——P218
28.
1439年前后,古登堡发明印刷机,中国的毕昇在11世纪40年代发明活字印刷(《中国出版史》)。
——P13及脚注
29.
1978年,构成信赖于定位系统(GPS)的24颗卫星第一次发射成功。
20世纪80年代,这个系统第一次对民用开放。
——P115
30.
在对冲基金工作的金融工程师杰夫·贝索斯。
——P168
31.
马丁·路德把拉丁文的《圣经》翻译成日常使用的德文,越来越多的人可以不通过牧师而直接聆听上帝的声音。
——P218-219
32.
美国佐治亚理工学院的罗伯特·德拉诺和布莱恩·派尔思开发了一款叫做iTrem的应用程序,用手机内置的测震仪监测人身体的颤动,以应对帕金森和其他神经系统疾病。
——P124
33.
即使你不明白为什么付出的努力得不到回报,但相比不努力,你要明白你已经在改善事情的结局了。
——P245
34.
世界可能被割裂为大数据时代、小数据时代和无数据时代。
——谢文:《实实在在大数据·推荐序2》P2013/9/14录
我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同。……
放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。
——周涛:《在路上 ·晃晃悠悠·译者序》P2013/9/14录
物理学和生物学都告诉我们,当我们改变规模时,事物的状态有时也会发生改变。
——P14
人性化技术是大数据时代最重要的技术。
——P17译注
谷歌的首席经济学家哈尔·范里安说:“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人。”
——P161
莎士比亚曾写道:“凡是过去,皆为序曲。”
——P244
读记:
本书于二〇一三年七月二十二日赴蒙古进行摄影采风在从呼和浩特到乌兰巴托的飞机上开始阅读,在蒙古期间读了大约二分之一,此后断续阅读,至今日完成,并于今日开始做读书笔记。
——2013/9/14下午
今天完成了本书读书笔记。
——2013/9/16晚
今日上午完成了对本笔记的阅读。
——2013/9/17上午