Do U Know China's 1st
Private Data :Pegasus Data
中国第一民间数据库——天马数据
雾霾纵然阻碍了我远行的脚步,却遮掩不住“足不出户、洞察天下”的心灵之神游——驰骋于天马数据库Pegasus
Data这一中国第一民间数据库中。自从读完维克托·迈尔-舍恩伯格著的《大数据时代》一书后,我就为自已多年前建立的私人数据库这一具有高度前瞻性的举动而骄傲,这也为下一步打造第一民间智库打下了基础。天马数据库是本人数十年苦心经营的庞大系统工程。这种成就感在于我撰写博客论文时得心应手地引用自己数据库中的各种数据而带来的喜悦。说起天马数据库当初的建立,一是20多年查用NBA数据库的经历受到的启迪;二是30多年剪报和记卡片经历;三是游历五大洲和全国34省区采集的海量图片和视频数据;四是最资深博客近10年的BLOG的编辑和整理功能;五是个人藏书和收藏丰富;六是对云计算的最敏感介入和应用;七是个人数据管理的良好素养而积聚10多个原始硬盘和50多个移动硬盘。
DT是数据处理技术(Data
Technology)的英文缩写。马云曾经在一次演讲中说道:“人类正从IT信息技术(Information
Technology)时代走向DT时代”。我们正在进入IT向DT时代的转型,IT和DT巨大的差异在于思想上的差异,重要的差异是成功者必须是利他思想。
数据库,简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。数据库的历史可以追溯到五十年前,那时的数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。然而,1
9 5 0 年雷明顿兰德公司(Remington Rand Inc)的一种叫做Univac I
的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。1951年Univac系统使用磁带和穿孔卡片作为数据存储。1956
年IBM就生产出第一个磁盘驱动器—— the Model 305 RAMAC。此驱动器有50 个盘片,每个盘片直径是2
英尺,可以储存5MB的数据。使用磁盘最大的好处是可以随机地存取数据,而穿孔卡片和磁带只能顺序存取数据。《爆发——大数据时代预见未来的新思维》作者、全球复杂网络研究权威、冯·诺依曼奖获得者艾伯特·拉斯洛·巴拉巴西参与3W咖啡活动时指出大数据有规可循,谁能把握它谁能主宰未来...微软专家吉拉德喜欢把这些“大数据”结果可视化:他把客户请到办公室...“大数据时代”来临是那么地润物细无声!业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征:一是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级;二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求;三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题;四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。如云计算呼叫中心的作业特性产生大量的呼叫、业务数据的吞吐及承载,使得各类业务数据急速增长,在此呈现出大数据以上所述的四“V”特性。Cookie数据采集越来越困难,RTB只是阶段产物,RTB概念会逐渐被广大广告主认清。根据国外媒体预测,2013年将是世界的大数据元年。
被誉为“大数据时代的预言家”、牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈尔-舍恩伯格(Viktor
Mayer-Schönberger),在其所著的《大数据时代》一书中就阐释所谓“大数据”的含义:不仅人类生产和生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备了全面采集“大数据”并予以无遗漏分析的技术能力。“大数据时代”的到来,毫无疑问会给人们带来空前便利。以往依赖于采样分析而得出的公共政策决策、消费者需求调查、美学设计,都将让位于基于全面数据的分析,将更趋于科学化、精准化。而信息存储和利用方式的革命性变化,互联网、“云”储存可以让人低成本的查找和利用文献资料,实现“足不出户、洞察天下”。
数据库系统的萌芽出现于60
年代。当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。传统的文件系统已经不能满足人们的需要。能够统一管理和共享数据的数据库管理系统(DBMS)应运而生。数据模型是数据库系统的核心和基础,各种DBMS软件都是基于某种数据模型的。所以通常也按照数据模型的特点将传统数据库系统分成网状数据库、层次数据库和关系数据库三类。
我的卡片情结是中国第一民间数据库——天马数据库的原动力,这一情结可追溯到童年。上小学时就开始对报纸杂志感兴趣。一到星期天,就到父亲单位的办公室把一摞摞的报纸一一读完,看到好的文章就用刀片划下,并开始建立自已的剪报本。日积月累,已成摞成箱。受剪报的启发,加上经常光顾图书馆的感悟,发现记卡片对于知识积累的功效尤其显著,主要是便于分类、收集和记忆。于是一发不可收拾,并按社会、经济、科技、历史、文学、哲学、政治、天文、宗教等学科进行分类收集。20年的记卡片经历,已累积颇丰。卡片多了,却担心鼠咬和受潮,90年代以后就分门别类地输入到微机中。后来出于对计算机病毒的担心,又开始进行备份。10多年来备份手段不断更新,我的卡片“信息大转移”也就经历了大软盘(3M)、小软盘(10MFD2HDQcs)、U盘、移动硬盘等阶段。容量成几何数级的递增,也觉得更加方便和高效。1989年我就接触到INTERNET,可谓第一代网民。通过电子邮件与千里之遥的编辑修改论文,网上专题搜索功能的便捷快速,使我受益匪浅,但我总是觉得这不能完全替代卡片的功能。近年来接触到博客并较早尝试,我也是只看重BLOG的编辑和整理功能。因为前几年流行的什么BBS、QQ聊天我从不涉及,主要是没有多余的时间可以浪费到这上面。所以我开博客的本意是把我每天记录下的卡片心得让BLOG总站无偿、安全(数据绝不会丢失)地给我编辑和收藏,一旦那天想出书面市,可以说水到渠成,是为主;记录个人并展示自己的心灵空间,通过真诚的文字建立一个精神交流(与自已交流)的网络平台,是为次。
延伸1:天马数据库的架构机制
对象模型
层次模型(轻量级数据访问协议)
网状模型(大型数据储存)关系模型
面向对象模型
半结构化模型
平面模型(表格模型,一般在形式上是一个二维数组。如表格模型数据Excel)
架构
数据库的架构可以大致区分为三个概括层次:内层、概念层和外层。
内层:最接近实际存储体,亦即有关数据的实际存储方式。
外层:最接近用户,即有关个别用户观看数据的方式。
概念层:介于两者之间的间接层。
数据库索引
主条目:数据库索引
数据索引的观念由来已久,像是一本书前面几页都有目录,目录也算是索引的一种,只是它的分类较广,例如车牌、身份证字号、条码等,都是一个索引的号码,当我们看到号码时,可以从号码中看出其中的端倪,若是要找的人、车或物品,也只要提供相关的号码,即可迅速查到正确的人事物。另外,索引跟字段有着相应的关系,索引即是由字段而来,其中字段有所谓的关键字段(Key
Field),该字段具有唯一性,即其值不可重复,且不可为"空值(null)"。例如:在合并数据时,索引便是扮演欲附加字段数据之指向性用途的角色。故此索引为不可重复性且不可为空。
数据库操作:事务
主条目:数据库事务
事务(Transaction)是用户定义的一个数据库操作串行,这些操作要么全做,要么全不做,是一个不可分区的工作单位。事务的ACID特性:
原子性(Atomicity)
一致性(Consistency)
隔离性(Isolation)
持续性(Durability)
事务的并发性是指多个事务的并行操作轮流交叉运行,事务的并发可能会访问和存储不正确的数据,破坏交易的隔离性和数据库的一致性。
延伸2、我的卡片情结——方寸天地里做大文章
http://blog.sina.com.cn/s/blog_48de94530100039t.html
3、2013:大数据时代元年
http://blog.sina.com.cn/s/blog_832ad2050101934d.html
4、中国智库首秀自摆乌龙
http://blog.sina.com.cn/s/blog_48de94530100ei2h.html
5、云计算给力财务会计的若干思考
http://blog.sina.com.cn/s/blog_48de94530100olcu.html
IT时代是方便自己控制和管理,“信息”是一种权力。而DT时代是利他、激活大众活力为主,DT是一个数据更充分流动的时代,会更加透明、利他,更注重责任和体验。
http://tpic.home.news.cn/xhBlog/xhpic001/M01/DF/66/wKhTg1U94oIEAAAAAAAAAAAAAAA416.jpg
阿里巴巴有一个“农村淘宝服务站”团队,专帮农民朋友“触网”。他们发来的“战报”是这样的:
浙江桐庐,张大伯打算开个“农家乐”,他上网买了6张床、6个空调、6个电视,还定制了厨房用的不锈钢架子。贵州铜仁谜路村,杨大叔打算做土石方运输生意,在阿里巴巴平台采购2辆重型卡车。浙江昌化镇白牛村,村民在淘宝购入6700个山核桃钳子——当地不少农民身为淘宝卖家,购买核桃钳子搭配自家的“山核桃套餐”在网上销售……
这些故事让我感觉特别踏实。
过去20年,互联网产业做得非常成功,但我发现很少有互联网公司能健康地、平静地活过3年。问题在哪里?缺了什么?
无论你是否喜欢,过去20年互联网都对人类社会产生了巨大的影响。而许多传统企业讨厌互联网,因为互联网毁掉了他们的生意。与此同时,那些成功的互联网公司如Google、Facebook、Amazon、eBay和阿里巴巴,我们所有的人天天都在担心。
如果一个行业中的公司常常不能活着超过3年,那这个行业永远无法成为主流,永远不可能深深根植于社会经济。我们要做什么才能找到解决方案,让公司能够活得长久而健康?
今年3月份我在德国曾有一个演讲。我认为,互联网必须找到那个缺失的部分。这个缺失的部分就是鼠标和土地、水泥携手合作,找到一个方法让互联网经济和实体经济能够结合。只有“互联网+”,互联网公司才能活下来,才能开心地活30年。
世界正在快速改变,很多人还不知道IT是什么,今天IT已经在向DT(数字科技)时代快速跨越。IT科技和数字科技,这不仅仅是不同的技术,而是人们思考方式的不同,人们对待这个世界方式的不同。
IT时代是方便自己控制和管理,“信息”是一种权力。而DT时代是利他、激活大众活力为主,DT是一个数据更充分流动的时代,会更加透明、利他,更注重责任和体验。
我们设想,在未来,经济将不再由石油驱动,而由数据驱动;商业模式将是C2B(Customer
to
Business)而不是B2C;机器不仅会生产产品,还会说话、思考,还会自我完善;企业将不再关注规模,不再关注标准化和权力,而会关注灵活性、敏捷性、个性化和用户友好;企业与企业、国家与国家之间不会那么注重对抗,而会在竞争的同时增加合作,并重视对整个社会的关怀和责任。
如果说第一次和第二次技术革命释放了人的“体力”,那这次技术革命释放了人的“脑力”:梦想、激情、想象力、科技信仰、创新冲动……
我一直认为,不是每一次工业或技术革命改变了世界,是技术背后的梦想改变了世界;不是单个的梦想推动世界改变,而是一群人、无数人的梦想,以及背后一整套的技术基础、制度安排推动世界改变。
我相信,中国在线的6.5亿人口和尚未在线的另一个6.5亿人口,不仅是全球最蔚为可观的消费市场、最灵活的智能化制造基地、也是“互联网+”创业创新最活跃的试验场。这些力量不仅会渗入中国的农村,渗入所有人的思想意识,也将同步促进知识、资源、制造、服务在全球价值链上的整合——这是“互联网+”,这是与数字化同步进行的全球化。
这是一个精彩的世界,这是一个属于年轻人的世界,这是一个属于未来的世界。(本文为阿里研究院《互联网+:从IT到DT》书序)

VI即(Visual
Identity),通译为视觉识别系统,是CIS系统最具传播力和感染力的部分。是将CI的非可视内容转化为静态的视觉识别符号,以无比丰富的多样的应用形式,在最为广泛的层面上,进行最直接的传播。
■真相有图■真相有图■
No fact stands without
pictures
观摩奥运,走读世博。看NBA,品世界杯。我观察,我纪录,我沉思,我见证。过低碳生活,倡普世价值;弘扬真善美,鞭挞假恶丑。究天人之际,通古今之变,成一家之言。读无字书,做逍遥人。洞察世界,洞悉人生。生也有涯,无涯惟智;文果载心,余心有寄。终生学习延续生命之长度,遍走全球拓展生命之宽度,拔高境界提升生命之高度。视自由思想为空气,秉独立人格为生命,以创造精神为动力,建公民社会为使命。精通外语为我打开认识世界的几多窗户,天文爱好让我养成仰望天空的独特习惯。熟读历史拓宽生命长度,哲学研究提升思想境界,沉迷宗教展开大爱翅膀。
加载中,请稍候......