我们工作中的伪大数据研究
(2014-12-25 08:53:00)
标签:
文化军事教育历史时评 |
当今世界已经进入了大数据时代,数字经济的浪潮滚滚翻腾,波及全社会每一个角落。大数据已同物联网、互联网、云计算、人工智能一起,成为时代特征。大数据的应用开启了一场重大的时代转型革命。在关键重要岗位上工作的人士感受到危机,不得不向新事物靠拢。因此工农商学兵政党一齐上阵,无论工作计划、学术论文、专题讲座,不冠以大数据的标签,好像就不够前沿,跟不上时代。大数据成为一场群众运动,一种时尚网红,一个穿越神话。于是乎群起四处参观,交流学习,洽谈合作,有的最终没有找到正门,只好在原来的圈子里喊几句新口号了事。经费充足的,或找个偏门,弄出些个大小平台权当门面,然后在条块分割、部门分割的背景下,新起一座座以行业大数据中心为名的孤岛。僵尸工具把大数据切片成小数据后乏人使用。做了个平台在自转,写了篇文章自己看。高速路的最后一公里被施缩地之法,总是走不完。
一个公认的事实是,当今社会,最稀缺的就是懂得大数据的人才。建设智慧城市、智慧工作领域的要求,已经使得大部分公务员和企事业负责人在这方面专业和能力的短板凸显出来。基础不牢,人才稀缺,却有那么多人高谈阔论大数据,很多地方已经按照上级的要求挂起大数据中心的牌子,但不知道该做什么。这同当前社会的浮躁气氛十分吻合。公安机关是最适宜也最需要利用大数据的部门,不能跟随这种浮躁的风气,在大数据浪潮中随波逐流,以免选错路径、贻误战机。
要想在公安工作中有效地使用大数据,首先要解决以下几个方面的问题。
一、准确认识并诠释大数据
任何一个单位和部门在大数据真正全面应用开始之时,首先要解决认识问题。
大数据是什么?通俗地说,就是大规模的数据,在它的基础上才能做到的事情,在小规模数据基础上是无法完成的。比如通过存储可能的危险分子名单并实施监控的手段,不管这个名单有多长,这种控制手段仍属于小数据管理范畴,是一种传统、有效的方法。缺点是容易出错(因重名或原始信息误差等)。当数据规模足够大时,算法就简单了。就像计算机下棋,过去它通过研究高手的战例(这还是小数据)来提高自己,所以还是下不过人类高手。现在计算速度问题解决了,它干脆自己高速试下,把所有可能(这是大数据、全数据了)都过一遍,发现了许多过去人类高手认为是“不行”的胜着,证实了人类有许多直觉是错误的。于是人只好投降了。
凡是被电子化记录的都是数据,而大数据就是全数据,也就是所有的数据,它的样本就是总体。它是人类科学研究从随机采样推断研究向全数据研究的转变,同时,由于它可以把文字变成数据,这对社会科学研究的影响尤为剧烈。目前最主要的大数据资源主要来自互联网,大数据基本掌握在政府有关部门和网络公司手里,在我国政府数据资源的开放度较低的前提下,目前大数据应用主要是通过互联网搜索引擎来实现的。仅从这一点看,很多单位和个人自认为进行的大数据研究和开发并不能列入大数据应用范畴。大数据概念被人为地扩展了。就连世界杯足球赛转播那么一点点数据,评论员还要说成根据“大”数据统计如何如何,这个“大”字就是凭空加进去的,纯属赶时髦。现在对使用大数据已近乎到了迷信的程度,认为大数据是无所不能的,这反而冲击了传统的数据管理方法。实际上,大数据应用是有边界的,超越了边界,其结果适得其反。虽然我们已经进入了大数据时代的前期阶段,但对大多数单位和个人来说,能把小数据用好就很不错了,目前相当一部分所谓的大数据研发成果,与已有的常规数据应用成果相比,在原理与方法上并无本质区别。在我国社科领域长期以来量化研究不足的情况下,用好、开发好已有的传统数据管理方法才是现实和有效的做法,并且在一定时期内还要继续发展传统的做法。
大数据应用包括了数据、算法、算力三个方面。除了数据要求是全数据以外,算法是最重要的因素。数据本身是枯燥无味的东西。最初等的数据是原始记录。比如我们立案时填写的那一张张表。原始记录是不太好用的初等资料,所以我们要通过统计工作将其加以整理,形成统计结果。在这个过程中需要建立一个统计工具,就是统计台账。就像我们选班干部在黑板上计票的那些“正”字,它帮助我们解决直接看选票确认谁当选的困难。没有台账,数据就是一堆无用的符号。大数据的最初起源就来自会计业的记账方法。在规模浩大的数据面前,算法其实就相当于建立各种有效的台账,以得到有用的结果。
最后就是算力问题,大数据就是现有技术处理不了的大规模数据,如果你在办公室自己就能处理,肯定不是大数据应用。在人工智能技术发展迅速的当今,算力问题是不难解决的,关键是破除孤岛,建立与总库对应的大数据中心,然后进行开发应用。
二、 掌握大数据才有机会使用大数据
进入大数据时代,拥有数据、掌控数据才能更好地掌控世界,掌控社会,掌控自己的工作领域。所以数据是最重要资源,量化一切,是大数据的核心。对大数据的掌握程度才是转化价值的来源。
大数据的产生与发展来源于人类测量、记录和分析事物的热望。一些单位和研究、工作者,手里没掌握什么数据,对劳心劳力地收集数据(还算不上“大”数据)也没什么兴趣,却热衷于谈论大数据应用,基本上是在做无米之炊。在我国,虽然政府的数据资源开放度较低,信息孤岛现象还比较严重。但从公安工作资源和需求的供求关系来看,我们公安机关是政府中拥有大数据资源较多的部门,又是管理着网络安全的部门,自身开展大数据应用已有了很坚实的基础。
目前公安机关能够控制或利用的大数据资源主要有:
1.人口数据。
2.网安数据(固定、移动通讯及互联网、物联网、监控视频)。
3.违法犯罪与社会秩序数据。
4.居住情况数据(常住、暂住、旅店)。
5.交通管理数据(人员、火车、汽车、船舶、飞行器旅行及交通工具本身、路况)。
6.社会组织数据。
7.入出境及移民数据。
8.重点保卫部位数据。等等。
这些都是公安工作中开发大数据应用的物质基础。
在大数据应用过程中,公安机关还是要尽可能地同国家的大数据部门和全社会联通,尽可能不形成新的孤岛。必须保密的应用领域,也要在公安内部全系统打通联络,为整个公安机关提供通用的数据服务。同时,还要建立严格规范的监控制度和手段,控制大数据对个人隐私的侵犯。也就是说,作为大数据掌握和使用者的公安机关及其工作人员,应当对个人隐私保护承担责任。
三、 有数据思维才能使用大数据
如果不具备将业务问题转变为数据可分析问题的数据思维,怎么神话大数据都无法创造价值。首先要求大数据应用者对实战中的任何一个微小的错误有敏锐的感觉,其次是能够对特定的相关检索词的量化累积有敏锐的感觉。然后找出它们之间的相关因素,依托强大规模的大数据中心,建立对应的台账监测系统,用以预测和进行决策。
在大数据时代,数据不再是静止和可以过期的。在传统的小数据采集和使用中,一旦达到目的,数据往往就会自然而然地被束之高阁,成为废旧资料,但是,这些数据其实关乎该项事物的起点或某个终结点,是非常有价值的信息,确认当前疑点的最好的大数据方法,就是检查该疑点的所有相关历史数据。计算机技术发展到今天,已经无惧“信息爆炸”,必须保留和使用全数据,包括横向的和纵向的全数据。
当我们拥有了海量大数据时,数据的精确度要求就大大降低了。微信中一篇文章的点击量是小数据,显示的是精确值,如“673”。而一旦点击量达到一定规模时,我们就不关心具体数值了,而是计为“100000+”。传统的数据研究方法一个很重要的工作就是减少误差,提高准确度。而使用大数据后,测量错误就会淹没在横向的数据规模和纵向的时间推移中。忽略对细节的关注,容忍适量错误,使得我们可以对大局有更好的把握,从而不犯战略性的错误。
四、必须有业务水平非常高的人参与其中才能用好大数据
业务水平高的人不一定具有大数据思维能力,但是要在公安实战中应用好大数据,业务水平是第一位重要的。很多实战部门总认为大数据应用是高科技工作,主要依赖计算技术的支撑。其实大数据最主要的功能是预测,它同人工智能是有区别的。它是利用数学算法来检测海量数据以预测某些事情发生的可能性,包括识别潜在的犯罪分子。它不是教机器像人那样思考,而是由人选择所需要检索和计算的对象,然后把结果提供给人。因此人对选什么内容和如何认识检索计算的结果是决定性的。这就要求业务水平非常高的专家直接参与其中。传统型的业务专家依然会存在,但他们也会越来越多地面对海量的统计数据,需要与数据信息进行博弈。目前的许多大数据应用开发中,数据、实战、业务专家都没有被放在第一位,而总是把算力、技术被放在了第一位。所以建立的一些平台是很中看(中不中用难说)、科技含量很高的。而要建立具有实战功能的平台,就必须向业务专家靠拢。我们可以考虑这样的思路:1.利用我们拥有数据,2.以实战需求为导向,3.由业务专家寻找突破点,建立台账式分析模式。
比如说特定人流异常聚集、特定人异常密集路线、方位;网络上异常集中的特定语言、点与点之间的异常交互沟通和集合;异常情况累积的数字表现及规律;等等,都可能反映不良恶性事件发生的可能。只有刑侦专家、禁毒专家、反恐专家、交通管理专家、消防专家们才对这些有敏锐的感觉,才能知晓什么样的信息是有用信息,才能关注到什么是不应该出现的情况。最理想的状态是帮助这样的专家建立大数据思维,培养出现代型的公安大数据算法师;退而求其次是业务专家同算法专家很好地结合在一起,建设专门的团队。由大数据专门人才去思考与大数据应用相适应的新的作战思路,开发新的应用领域,推演科学、实用、有效的算法,以建立起分门别类的、有价值的、有针对性的特定台账体系数学模型,检索、观测、分析、控制异常情况,寻求内在联系,进行批量对比,形成实时的预测预警报警体系,这种体系依托纯数据算法,不需要研究发生问题的原因,也不需要同具体实战业务直接联系,它只是全覆盖地提醒我们实际发生了什么,从而使我们发现问题,其控制力和解决实战问题的能力将是惊人的。
要想应用大数据开展工作,其思维方式与传统的习惯思维完全不同。因此本文最后强调一遍大数据思维的要点:1.必须使用全数据;2.不需要探讨原因;3.容忍适量错误;4.任何旧数据都不会过时。
大数据是公安工作创新发展的引擎,战略落地的关键是业务实战驱动。预测预警、打击管控、业务和数据双驱动是大数据发挥价值的关键。在业务专家、工程技术专家、大数据分析专家相结合的基础上开展公安大数据应用,是公安工作现代化的必由之路。