《大数据》第一章 开篇
(2012-11-28 11:22:38)
标签:
大数据管理公司估值it投资 |
分类: 大数据 |
这已经第五遍写第一章的开头部分,有点感觉了,先发出来,征求意见。
大数据,事关国家安全、产业兴衰、公司存亡,不可不察。信息科技经过60余年的发展,数据(信息)已经渗透到国家治理、国民经济运行的方方面面。经济活动中很大一部分都与数据的创造、传输、和使用有关。2012年3月份,奥巴马公布了美国“大数据发展计划”,标志大数据成为国家战略,上升为国家意志。
国家层面,大数据已经成为继边防、海防、空防之后,第四个大国博弈的空间。没有数据安全,也就没有国家安全。华为、中兴开拓美国市场受挫,是非常明显和清晰的信号。美国政府对自家数据安全的重视程度,已经到了不能让任何外国产品供应商染指的地步。华为此前一直希望通过竞标和并购等方式进入北美市场,但始终未能如愿。2008年,华为与贝恩资本联合竞购3COM公司,却因美国政府阻挠未能成行;2011年,华为被迫接受美国外国投资委员会的建议,撤销收购3Leaf公司特殊资产的申请;同样是在2011年,美国商务部阻止华为参与国家应急网络项目招标。
再看看美国国防部立项的几个大数据项目:“多尺度异常检测(ADAMS)项目解决大规模数据集的异常检测和特征识别的问题。网络内部威胁(CINDER)计划,旨在开发新的方法来检测军事计算机网络与网络间谍活动。作为一种揭露隐藏操作的手段,CINDER将适用于将对不同类型对手的活动统一成“规范”的内部网络活动,并旨在提高对网络威胁检测的准确性、和速度。Insight计划主要解决目前情报,监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析。该计划旨在开发出资源管理系统,通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。Machine Reading 项目,旨在实现人工智能的应用和发展学习系统的过程中对自然文本进行知识插入,而不是依靠昂贵和费时的知识表示目前的进程,并需要专家和相关知识工程师所给出的语义表示信息。Mind's Eye 项目,旨在为机器建立视觉的智能。传统的机器视觉研究的对象选取广泛的物体来描述一个场景的属性名词,而Mind's Eye旨在增加在这些场景的动作认识和推理需要的知觉认知基础。总之,这些技术可以建立一个更完整的视觉智能效果。……(不一一列举,参见附录)”其他部门包括国土安全部、能源部、卫生和人类服务部、国家航天总局、美国国家科学基金会、美国国家安全局、美国地质调查局纷纷推出大数据项目。奥巴马指出:“通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,改变教学研究,加强国家安全。”
产业层面,虽然大数据技术,虽然发源于信息科技,但其影响,已经远远超出信息行业。数据已经存在于全球经济中的每一个部门,就如固定资产和人力资本等生产要素一样,如果没有它许多现代经济活动的根本就不会发生。我们观察到一些新兴的互联网公司,利用新技术,大规模的收集数据,预判客户行为,然后在不同的行业纵横捭阖,什么是产业?哪里是公司的疆界?他们剑锋所指,现代服务业无不受其锋芒所迫,或随波逐流,或奋起反击。但缺少数据资产,无疑落了后手;也看到传统行业的公司,数十年如一日的坚持积累当时被视作“废料”的数据,现在回头审视这些数字化的资产,居然一跃成为人类的宝库。凭借独一无二的“数据资产”,公司进入相关行业,易如反掌。
当我写完这些案例,回头审视产业的起起伏伏,发现产业兴衰决定性的因素,已经不是一池一城的争夺。土地、人力、技术、资本这些传统的生产要素,甚至需要追随“数据资产”,重新进行优化配置。封建时代,往往是裂土封王,权贵都是大地主;工业革命后,制造业巨子,成为偶像;资本市场,受到追捧的是拥有大量钱财的投资家;但是在大数据时代,“数据资产”成为最重要的生产要素。拥有大量数据资产的人,成为美国总统的座上宾。
产业的分分合合,一直是资本市场非常喜欢的故事。不管是分拆也好,整合也罢,资本市场都有钱赚。以往产业的整合基本围绕产业链展开。要么向上游扩展,要么向下游兼并。但是在大数据时代,我们看到的是商业图景是围绕“数据资产”拉开的产业购并的大幕。谷歌所有的收购或者推出的新产品,都是为了增加数据资产的“维度”和“活性”。(维度、活性等概念在数据资产章节详细说明,是数据资产评估模型的一部分)。所有观察公司发展,产业未来的机构或者个人,如果忽略“数据资产”,或者对“数据资产”认知肤浅,必将导致错误的判断。大数据将是决定产业未来的战略性资产。未来产业间的整合收购,很大程度上都是围绕“数据资产”的争夺而展开的。
企业家、投资人、咨询顾问、分析师,必须要从战略层面思考大数据对产业、对公司的影响。2012年初,我们曾经和恒安国际的董事会一道交流大数据对制造业的影响。会上许连捷总裁,说了一段话,非常经典。“在大数据时代我们收集数据,研究消费者行为,推出新的产品、改善供应链,降低库存,一句话就是把大数据融入到经营中去。也许有可能把库存降到近乎0的水平。”所以,我们谈大数据,首先是思维方式的问题,是要建立全面、系统的大数据意识,其次才落实到公司战略。而且它对公司的影响也是方方面面的,涉及组织、文化、流程、技术等。本书有一章,来详细谈论大数据对公司组织结构的影响。
具体到中国信息产业,一直落后于国外的巨头,长期处在产业链的末端,赚取刀片一样的利润。尽管国家拿出大笔资金扶持上游环节的拓荒者,比如CPU、操作系统、办公软件,但是花国家钱的,鲜有成功的先例。但是在新兴的大数据处理领域,中外公司几乎站在同一起跑线。有业内人士表示,单纯考虑狭义的大数据处理技术(如Hadoop、MapReduce、模式识别、机器学习等),中外差距仅有5年左右。如果考虑数字资产规模以及利用的技术,中外差距更多体现为意识上的差距。美国在数据开放、跨部门共享方面做出了表率。而我国对大数据的价值和应用,政府、学界、产业界和资本市场尚待达成一致的认知。各部门、各地方普遍存在“数据割据”和“数据孤岛”的现象。我一直在强调,缺乏大数据意识,是阻碍我国大数据技术在各行业落地的关键因素。
大数据时代,有两点非常有利于中国信息产业跨越式发展。第一,大数据技术以开源为主,迄今为止,尚未形成绝对技术垄断。即便是IBM、Oracle等行业巨擘,也同样是集成了开源技术,和本公司原有产品更好的结合而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕。但是需要更加开放的心态,更加开明的思想,正确的对待开源社区。我在一篇博文中曾呼吁“拥抱开源,反哺开源”,没有引起什么反响。第二,中国人口和经济规模,决定中国的数据资产规模,冠于全球。客观上为大数据技术的发展,提供了演练场。第二点亟待政府、学界、产业界、资本市场四方通力合作,确保国家数据安全的前提下,最大程度的开放数据资产,促进数据关联应用,释放大数据的大价值。目前政府和产业界积累了大量的数据资产,但是苦于缺乏行之有效的算法,来充分挖掘数据的价值。形象的说,好多行业是守着“金山要饭吃”。而学界,尤其是应用数学领域,在统计学习、图像处理、网络科学领域钻研颇深,但缺乏大量的实际的数据来验证和训练算法。虽有屠龙术,无处展身手。两方长期处于脱节的状态。如果应用数学界和产业界紧密协作,将是中国公司的极大利好,会大大促进公司的技术实力。2012年11月17日,在北京大学国际数学研究中心,召开首届“数据科学与信息产业大会”,为促进数据和信息产业的联合,开了一个好头。大会提出并详细阐释了数据科学的使命和方向。用数据来研究科学,包括生物医学、天体信息学、数字地球、计算社会学;科学的研究数据,包括数据的获取、存储、展示平台,数据分析技术等。
数据资产并不是大公司才有的专利。在第三章中详细讨论一种“泛互联网化范式”,终端+平台+应用,最后形成数据资产。许许多多富有活力的公司,均符合这一范式。这也是创业型公司开启大数据之路的总结和探索。
本书内容将围绕大数据对产业走势的影响、在产业中的具体应用(商业模式)、以及数据科学的兴起三大主题展开。本章包括大数据产生的历史背景、激动人心的典型特征、系统全面的认知框架等内容,最后会简略谈谈推广大数据面临的困难和挑战。