加载中…
个人资料
短发~丸子ㄟ▔^▔ㄟ
短发~丸子ㄟ▔^▔ㄟ
  • 博客等级:
  • 博客积分:0
  • 博客访问:30,986
  • 关注人气:0
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
访客
加载中…
好友
加载中…
评论
加载中…
留言
加载中…
分类
博文
标签:

杂谈

  下一个是谁?面对这种拷问的不只是中国移动。几天前业内流传的消息称,电信行业的反腐范围全面扩大,中国移动、中国联通和中国电信中层以上干部均被列入调查范围。尽管没有官方证实,不过,中国移动数名高管落马已经让舆论沸沸扬扬,外界不禁疑问重重:电信业怎么了?


  新一轮


  整肃风暴展开


  来自财新网的消息称,中纪委向三家运营商已派驻了调查人员。该消息援引知情者的话说,调查初步预计将持续到6月初,其间,三大运营商中层以上干部均被要求上交护照。


  对此运营商们保持了缄默。本月初就有消息传出,称有关部门即将对电信行业展开新一轮整肃,当时的说法是审计署等部门将进驻三大运营商,并对相关敏感领域展开进一步的严密排查。


  事实上,从去年曝光李向东案开始,中国移动的反腐风暴便轰轰烈烈地展开了。据称,审计部门在2010年对三大运营商进行重点审计,每次重点抽查三大运营商的两三个省,用1年时间梳理完成。2011年和2012年则进行普遍审计和补充审计。通过持续三年的严密排查,在电信行业内进行大规模的反腐清理。


  移动已揪出7名高管

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

据谷歌公布的数据显示,谷歌数据中心能源消费达到2.6亿瓦特,这相当于弗吉尼亚州首府里士满或者加州欧文市家庭用户的所有用电量,或者说,这相当于一座标准核电站1/4的输出功率。


美国劳伦斯伯克利国家实验室研究人员布鲁斯。 诺德门指出,大多数网络设备的能源消耗产生于家庭和办公室,而不是主要数据中心。


谷歌表示,所得数据显示,平均每次搜索耗电为0.3瓦时。诺德门认为:“减少谷歌搜索并不会节省很多能源。因为耗电更多源自家里和办公室,所以能够在这些地区实现更多的节

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

对于数据科学或机器学习研究者而言,当解决任何机器学习问题时,可能面临的最大问题之一就是训练数据不平衡的问题。本文将尝试使用图像分类问题来揭示训练数据中不平衡类别的奥秘。


数据不平衡问题是什么?


在一个分类问题中,当你想要预测一个或多个类中的样本数量极少时,可能会遇到数据中类不平衡的问题,即部分类的样本数量远远大于其它类中的样本数量。


例子


欺诈预测(真实交易的欺诈数量要低得多);


自然灾害预测(坏事件发生的频率将远远低于好事);


识别图像分类中的恶性肿瘤(具有肿瘤的图像将比训练样本内的无肿瘤的图像少得多);


为什么这会是个问题?


不平衡课程造成问题主要是由于以下两个原因:


由于模型/算法从来没有充分地查看全部类别信息,对于实时不平衡的类别没有得到最优化的结果;


由于少数样本类的观察次数极少,这会产生一个验证或测试样本的问题,即很难在类中进行表示;


解决这个问题的方法有哪些?


解决这个问题的方法主要有三种,三种各有各自的优缺点:


 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

在这个暑假,有兴趣的可以阅读一下这些免费的有关机器学习和数据科学的书籍,他们能给你打开一扇看清机器学习和数据科学的窗。如果在阅读完这一文章后想知晓更多免费的好书,请查看本系列的前一篇或下面的相关内容。

 


 


1. Python Data Science Handbook


作者:Jake VanderPlas


本书介绍了在Python中处理数据所必需的核心库,特别是IPython,NumPy,Pandas,Matplotlib,Scikit-Lean和相关的软件包。在此之前您需要掌握Python这种语言,如果您想快速掌握这门语言,可以参阅这个针对研究人员和科学家的Python语言快速入门的“Python的旋风之旅(A Whirlwind Tour of Python)”。


2. Neural Networks and Deep Learning


作者:Michael Nielsen


这是一本免费的在线书籍。通过这本书你会知道神经网络是一个美丽的生物启发式编程范例,使计算机可以从观测数据中学习。而深度学习则是一套强大的神经网络学习技术。


目前,神经网络和深度学

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

近年来,数据科学和机器学习在应对金融领域诸多任务的处理能力已经成为大家关注的焦点。公司希望知道新技术能够为公司带来什么改进以及它们如何重塑公司的经营策略。

我们准备了一份数据科学案例清单,这几个案例已经在金融领域内产生了巨大影响。它们涵盖了从数据管理到交易策略等各个不同的业务方面,拥有广泛的前景。


自动化风险管理


风险管理是金融机构非常重要的领域,它要为公司的安全、可信度和战略决策负责。过去几年来,进行风险管理的方式发生了重大变化,甚至直接改变了金融公司的性质。从未像今天这样,公司可以通过机器学习模型来承载业务发展。


风险可以来源于很多方面,比如竞争对手、投资者、监管机构或公司的客户都可能产生风险。除此以外,风险的重要性和可能带来的潜在损失也不完全正向相关。因此,主要的风险管理步骤一般是识别风险、优先级排序和监控风险,而这正好是机器学习所擅长的任务。基于海量的客户数据、金融借贷数据和保险结果数据进行训练,使得这些算法不仅可以改善风险评价模型,还可以增加效率和可持续性。


 


阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

《经济参考报》记者获悉,我国正在开展的全国网络安全执法大检查行动中,首次开展针对大数据安全的整治工作,具体包括大数据的采集、存储、应用、传输、销毁等全生命周期的监管、安全以及保护。

据相关人士透露,大数据安全整治将全面对我国大数据信息内容、存储位置、所涉企业进行摸底。同时,对企业采集信息来源开展执法检查,对数据采集的合法性、应用的范围限制等进行确定。


上述人士表示,大数据安全整治检查中一项重点工作是对合法采集内容与非法采集内容进行分类。其中,对于非法采集信息,将进行集中打击、销毁;对合法、合规采集的信息,则纳入保护监管范围。


公安部网络安全保卫局总工程师郭启全在接受《经济参考报》记者采访时表示,大数据安全整治是我国近期正在开展的全国网络安全执法大检查行动中的重要内容,这也是首次将大数据安全纳入检查对象,尤其是针对公民个人信息的保护将是执法的重中之重。


“现阶段大数据安全是网络安全问题中最为突出的,也是与公民个人关系最为紧密的。其不仅会影响国家安全、政治安全、军事安全,还会影响企业商业利益、公民的生命安全。”郭启全说。


当前中国网

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

“开源”模式带来的好处很多,其中最吸引人的就是可以帮助企业降低成本。另外,开源模式消除了供应商的限制和壁垒,并且可让技术变得更加协作,合作者会不断更新开源软件,使技术得到持续的完善和发展。云计算和大数据目前都是热门话题,两者的发展与开源技术的结合,及如何在云上实现大数据项目,都是新的实践领域。

开源云计算现状


云计算发展到今天,已经成为企业IT基础设施的主流选择;以Docker为代表的Container技术,也推动着云计算在PaaS层面的发展;而SaaS应用更是方兴未艾。云计算已经从概念走向实际应用,且将愈加促进信息化、工业化的整合进程。


敏捷、灵活、可定制,这是各大公司在解释他们为什么投资云计算时最爱提到的三个词。与此同时,当今领先的云供应商虽然心中想着最佳的技术利益,但从财务权益方面来考虑,却阻止他们提供开放的云环境。因此,在这个企业IT“云”化的过程中,开源技术正在成为未来的重要选择。


开源云计算带来的好处很多,其中最吸引人的就是可以帮助企业降低成本。另外,开源模式消除了供应商的限制和壁垒,并且可让技术变得更加协作,合作者会不断更新开源软件,使该技术得到持续的完善

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

在这个数据科学越来越火的时代,数据科学家的工作到底是怎样的呢?


数据科学越来越火,很多人都想转行入坑数据科学家,这当然是好事。可是很多人都以为数据科学、机器学习等等流行词对应的工作,就是把数据塞进Sckit-Learn这个算法库里而已。


事实远远没有那么简单,下面我带大家走进真实的数据科学世界。


让我们从数据搜集完成后开始讲起。


问题阐述


“数据消耗”反映了特定服务类别数据的下载和上传量,比如社交网络,音频等等。我们来看一个具体的例子。假设我们研究的是一个计数器,利用该计数器可以查看与亚马逊网络服务(Amazon Web Service,简称为AWS)连接的机器数量。


如果我们直接对原始数据进行分类,我们会得到如下结果:


 


 


我们可以注意到,这

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

GDPR是为了解决数字时代日益频发的个人数据问题所制定的政策,目前看来已经对欧洲公司产生巨大影响。

GDPR让企业们对用户个人数据的使用有了诸多的限制,可谓乱世重典,这种限制使得原本就不平静的欧洲营销市场再掀波澜。企业又如何在IoT时代更加合规?


数据量减少,但有更具针对性的个人数据


以用户行为为基础的cookie技术已经过时了,以往数据供应商的数据不是太少,而是太多。


“对某个发文点赞,就代表你真心喜欢这则资讯吗?也很难说,说不定只是喜欢发文的人,或是手滑不小心按到。”


-数据相对客观,不绝对准确


-采集数据的软硬件,是人为设计的,因此不可能做到绝对的客观。


-手机停留在某个画面,就代表你在欣赏这个内容吗 很难说,或许你只是在跟旁边的朋友聊天。


Smartpipe的首席营销官Chad Wollen表示,个人数据的访问限制让以往依赖大量数据的营销人员束手无策,由于消费者选择退出共享个人信息,广告技术供应商们会发现手头的数据和原来相比少的可怜,营销人员能访问的数据信息同样受限。


不过尽管失去了庞大的数据量,OpenX 的主管Ryan

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

6月4日据国外媒体报道,此前有消息称,Facebook将公司收集的用户个人信息隐私数据泄露给了包括亚马逊、苹果和三星在内等超过60家硬件设备厂商。现在Facebook对此说法进行了否认。

看来这家全球最大的社交媒体网络正极力避免自己陷入又一场潜在的隐私丑闻泥潭。《纽约时报》此前报道称,在过去多年中,Facebook一共与大约60家设备厂商签署了协议,向他们提供用户隐私信息,这些厂商中包括了三星、苹果、微软、黑莓、亚马逊等。这些厂商与Facebook建立了长期数据共享合作伙伴关系,因此智能手机和平板电脑制造商可以访问Facebook用户极其朋友的个人信息,其中包括用户明确要求不得与第三方共享的数据。


Facebook表示,公司并不存在任何滥用数据的行为,同时绝大多数用户的个人信息都保存在各自的智能手机上,而并非是公司的服务器。Facebook平台战略合作副总裁伊姆·阿齐邦(Ime Archibong)表示,这些与硬件厂商的合作关系与之前的第三方开发者关系“完全不同”,之前Facebook曾为未能监管第三方开发者使用数据而公开道歉。


阿齐邦强调,这些数据是用来帮助用户在自己的设备上更好的访问Facebook网站,同时公司对这一过程进行了监管。


阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有