标签:
微软亚洲研究院二十一世纪计算johnhopcroft人才培养科学基础 |
分类: 技术 |
Creating a science base to support new directions in computer science
John Edward
Hopcroft是康奈尔大学计算机科学系教授,曾先后在普林斯顿大学、康乃尔大学、斯坦福大学等著名高等学府工作。他原本学的是电气工程专业,机缘巧合之下成为著名的计算机科学家。1986年,John由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖。2005年,John获得IEEE哈里•古德(Harry
Goode)纪念奖,并且于2007年获得计算机研究协会的杰出贡献奖。在21世纪计算机大会上,John发表了自己对计算机科学未来的展望,并号召我们要积极变革,下面,让我们一起来欣赏他的精彩演说吧!
点击观看John Hopcroft的精彩演讲视频
未来的可能
非常高兴能来这里给大家介绍一下我对计算机科学未来的展望,首先,我想给大家介绍一下我的职业生涯,因为这里面有我讲的一个重要内容——我的学位。1964年,我拿到斯坦福大学的电气工程学博士学位,然后普林斯顿电气学部招我过去。当时,学校没有这个专业,对我来说,这非常新颖。普林斯顿让我在计算机科学方面搞一个学科,那时我甚至不知道这个学科,他们给了我四张纸并说所有课程只要涵盖这四张纸上的内容就可以了,我实在没有想到的是教授计算机科学,让我成为了世界上第一个计算机科学家。因此,每当政府要找计算机科学家时,都会找到我。如果我搞高分子材料的话,可能直到今天还在等我的上司退休了,才有可能获得一些好的机会。
我给我的学生讲这个故事的时候,他们说你很幸运嘛,你恰好在恰当的时候毕业了,我想给大家讲的是,你们现在也很幸运,现在计算机科学正在经历巨大的变革,如果你对未来做好准备,我相信你会有很好的职业生涯。在我的计算机生涯中,我就是希望能够让电脑变得越来越有用,电脑科学家或计算机科学家在做编译、算法以及操作系统时总是想这一点,我并不想说这些并不重要,但是真正在你们的职业生涯中,能够让你们感兴趣的研究领域将是不同的,你们将要更关心一些具体的应用,比方说在科学期刊上怎么评估趋势,整个社会有什么样的发展等。
推动这变化的主要驱动力,首先就包括计算机以及通讯组件的融合,可能通讯比计算机更为重要,同时,信息是以数字形式存在的,数据也是以数字形式存在的。我们也听到了,很多人都谈到了互联网,提到了无所不在的计算以及各种各样的传感器,另外,对于计算机理论研究,我们认为必须要有一个新的科学基础来支持这一切,下面我会先给大家举几个例子,然后再给大家讲一讲什么是科学的基础,在科学的基础上我们如何发展。
在未来,如果你进行搜索的时候,比方说你想知道爱因斯坦是哪年出生的,你到必英里面输入“爱因斯坦是什么时候出生的”,你不会拿到100多个网页的结果,你的结果可能就一句话——“爱因斯坦在1879年3月14号出生于德国的Wurttemberg”,今天你在必应输入可能会有这样一个答案,而不是几百条、几千条的答案了。现在网页就是这样的概念:通过组成含有不同信息的句子回答你的问题。
同时,我们现在可以对一切进行追踪,例如,在美国,我通过这个网站可以看一下任何一个民航的飞机。如果我要去圣佛朗西斯科,我不知道飞机什么时候到,在这里面输入,就可知道大概两个小时到旧金山,这个时候我可以先喝杯咖啡,再去接他。
再给大家举一个例子,几年前我们大家很担心禽流感,我们害怕禽流感会跑到欧洲,或者跑到美国,由于有候鸟,所以想看一下可能性有多大。我们发现其实有6000种鸟都会染上禽流感,如果看一下他们的迁徙的路线,会发现其中有两种鸟,它们在同一个时期会待在同一个地方,但是我们却不知道他们的飞行的路线,这个信息没办法获得。我这边想指出的是,就算看上去这个信息没办法获得,你还是可以算出来的,怎么算呢?我们把这个空间分成了不同的区域,再乘以时间,还把鸟类的聚集地放到我们的地点和时间里面,加入一个算法。总之,通过现有的状况,我们是可以推断出鸟类迁徙路线的。
我们现在有越来越多的信息可以获得,而且在这些信息背后,还有一些信息是没有意识到的。回到前面我所提的关于飞机的信息,如果你想看一下有没有墨西哥湾过来的风暴,那么飞机就会根据天气来进行调整,天气也是涵盖在我们之前的数据中的,之前我们对这样的数据却没有认识到,在未来我们也会把这样的信息进一步攫取出来。
科学的基础
刚刚我给大家简单地介绍一下未来的可能,下面在我演讲的第二部分,我想向大家(尤其是研究生)介绍一下什么叫科学的基础。我想讲的第一点是,我们要看一下科学文献中这些想法的一些趋势。有一个叫做Yookyung Jo的人,最开始是研究图书馆科学的,几年前做了一个非常粗浅的研究。他发现,如果把有网页排名的论文全部找出来,会非常乱。也就是说,如果有人写了一篇关于网页排名的文章,他可能会引用一些标准的文本,但是这些标准的文本会引用其他的、与他们的网页排名研究没有任何关系的文本,所以希望看一下网页排名的论文是如何相互参考、相互应用,通过这样的参考,得出这样一个图形,我们就会发现,如果仔细看,不同论文其实可以根据网页排名的不同类型分成三类,我们现在可以做的就是,把相应的文献拿出来。这也告诉我们,我们现在其实可以看到,这些科学的观点是如何发展的。
再跟大家解释一下对社交网络进行的追踪。有一篇论文是由很多人共同合作完成的,他们对70个世界上真实存在的网络进行研究,看一下网络中存在哪些社群以及哪些社群效率最高。通过算法,他们发现,对社群来说,规模在100到150的时候效率最高。这个结果是非常有意思的,因为很多人认为一个社群,规模越大越好。但是如果规模大,可能就没办法进行良好沟通了,一个大的社群可能要变成两个社群,或者说社群的人数逐渐减少。虽然我们知道这样的社群,但是不知道规模多大比较合适。
我们在这个领域的研究工作的重要组成部分,还包括对社群做出好的界定。我们要有社群的理念,然后才能够不断地在整个社群之中获得最终、最新的进展。要想拿出一个定义的话,我想介绍另外一篇论文,这是由来自微软和惠普的几个研究者共同撰写的,他们提出了一个概念叫“alpha—beta社群”,实际上在每一个社群当中,一个顶点是和另一个社群联系在一起的,社群之外是alpha,它比beta要小。对于beta社群,我们研究的方法主要是看一下社会网络的结构,接下来把这些在很大程度上彼此重叠社群的核心找出来。我们发现,随着规模越大,重叠的核就消失了。
关于将来的科学研究的基础,在这里,我想谈的就是高维空间数据。接下来30年、40年时间当中,大家会面对高维数据。从知觉上来讲,我们只有二维和三维,对它们理解的很好,待会儿,我会解释一下对高维和二三维的理解。
比方说,对于二维的随机分布的原点,两点最接近时的距离和两点最遥远的距离相比差距达到5倍。但是,如果我的空间有100个纬,然后我把所有两对点之间的数据做一个计算统计的话,我们会看到所有两点之间的距离,几乎是一样的,为什么会这样呢?因为对于两个随机点X和Y,要计算一下X和Y之间的距离,我要做的是用X-Y做一个平方,然后再做一个求和,如果X和Y是随机矢量的话,只要你把足够多的随机数加起来的话,你的答案就非常接近你的预期值。
最后我想总结一下,我已经讲到了高维空间数据的基础。我对其他的研究都要依据各种各样的科学基础。在你生涯当中也都需要建立这样一种科学的基础,我希望大家今天回去之后,能够记住,我们现在生活在变革的时代,信息的时代,它的一个根本的要素就是变革,如果你在未来仍然是活在过去,那是不行的!