加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

关于大数据的思考 【2】

(2012-10-22 19:08:05)
标签:

大数据

数据挖掘

it

分类: 技术评论

[3]

有人会问,数据挖掘,除了打假以外,有没有更有商业价值的应用?有,而且很多。先说说看病的事儿。

经常会有病人,去多家医院就诊。因为相同的症状,不同的医生有不同的诊断。兼听则明,但是究竟该听谁的?

有人建议,让病友分享就诊经验。多个病友,相同的症状,他们在不同的医院就诊,很可能得到不同的诊断和治疗方案。这样日积月累,我们就可以建立起一个医疗案例库。

与医学院的案例研究不同,这个案例库是公开的,不仅医生可以看,而且病人也可以交流。虽然医学非常复杂,但是为了自己的健康甚至生命,病友会不惜余力地收集信息,相互交流。病友之间的交流,不一定会对医学的发展,有多大直接的裨益,但是至少可以减少误诊,提高疗效。

有人质疑说,这侵犯了病人的隐私。假如病人自愿呢?假如病人用马甲替代自己真名实姓呢?

即便我们不能得到所有病人的病例,但是从志愿者那里,我们可以获得一部分案例。积少成多,开放的医疗案例库,将日益丰富。

听起来很美,但是真正实施,难度很大。

假如病人把病历公开了,发现有误诊,医院面对的诉讼会不会增多?假如发现乱开药,医院面对的索赔会不会增多?

推而广之,不对称的信息,导致消费者承担额外的成本,这成本甚至包括生命。


[4]

有人说,医疗系统积弊太多,一时半会儿解决不了。我们捡一个容易点的领域切入吧,譬如汽车。

当代市场上每一辆车,基本都包含 1000 多个传感器,这些传感器检测引擎气缸的气压、燃料的燃烧值、尾气含量等等。并且,这些传感器与汽车数据总线相连,所有的数据,都可以通过标准接口,很方便地被读出。

这些传感器采集的数据,与病人去医院诊断病情时的血样分析、便样分析、甚至 CT 照片很类似。假如,我们为每一辆车,建立一个病历,把车辆数据录入到病历里。这样,每辆车历年的健康状态,维修记录,都有据可查。这样,不仅有利于车辆的保养维护,而且可以大大降低因为车辆故障,而导致的车祸的数量。

这个办法的好处,显而易见。但是各个车厂,为了自身利益,不愿意公布这些数据的格式。也就是说,即便用户可以读到这些数据,但是他无法理解这些数据的意义。只有去指定的 4S 店,只有用车厂特制的设备,才能正确读解这些数据。

为了拆除这个壁垒,有效的办法,是通过立法,强制各个车厂,遵循统一的数据格式标准。

事实上,从上个世纪 90 年代开始,欧美日就陆续立法,规定了汽车数据的标准格式,这套标准,称为 OBD (On-Board Diagnosis)。

又假如,我们把每一辆车的这些数据,通过无线通讯,实时收集到网上。这样,无论何时何处,只要这车一启动,我们就可以实时地检测它的健康状况。更重要的,消费者们可以方便地读到这些数据。

消费者可以自愿公开这些数据。通过与其他车友或者专家交流,大大消弭与 4S 店之间的信息不对称。这样,4S 店蒙骗消费者,以次充好乱收费的现象,将会大大降低。

推而广之,大数据的第二个问题,是数据来源问题,互联网网站,通过用户上传,获得大量数据。而物联网,通过传感器,自动上传数据。但是物联网面临的挑战是,传感器被少数企业或者机构掌握,这些企业和机构,为维护自身利益,不愿意公开这些数据。有效的办法,是通过立法,强制它们把属于公众的数据,还给公众。

说说我们国内车联网的现状。

国内市场的车辆,大多数没有安装 OBD 系统。询问相关部门,答复是安装 OBD 系统,将增加车辆成本。

比较一下车价,同品牌同款式的车,国外定价远比国内价格低。中国消费者付了更多的钱,但是却得到更少的功能和服务。这是为什么?回答是车辆的差价,主要是海关关税。

询问海关,为什么要对进口车辆包括零部件课以重税?答复是保护民族产业。

再多问一句,能不能从进口税中,拨出一部分补贴 OBD 系统呢?

物联网、车联网极大地扩大了数据来源,但是因为涉及到硬件制造,这些数据很容易被垄断。所以,大数据的数据来源,不仅仅是数据采集的问题,更是数据公开的问题。


[5]

传感器、车联网、物联网,这个设想前景远大,但是困难重重。难度相对较小的数据来源,是互联网网站。

微博名人薛蛮子,几个月前在新浪微博上,发帖询问“谁是北京治疗直肠癌的好医生?”,应者众多。类似的询问很多,是否可以做一个专司找人的搜索引擎?

实现方法是这样的,譬如说找北京直肠癌医生,我们通过搜索所有微博,找到谁的微博中,频繁出现与肠与癌相关的词汇。这样的人有两类,一类是医生,另一类是病友。

如何区分这两类人呢?可以通过分析这些微博用户,他们与哪些人联系密切。医生经常与同行交流,所以在他们的好友中,医生的比例一定显著地高。而病友的好友,则分布广泛。

实现这个找人搜索引擎,有个前提,必须获得大量微博内容,以及微博用户的人际网络。要获得这些信息,就必须得到新浪微博,或者腾讯、人人网这样的社交网站的支持。

因为涉及到新浪等等企业的实际利益,让他们无偿公开这些信息,是有难度的。解决这个问题,要么通过立法,要么通过赢利分成。但是总体上来说,社交网站比车厂更愿意合作,原因是社交网站的运行成本,远比制造传感器的成本低。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有