加载中…
个人资料
enjoydata
enjoydata
  • 博客等级:
  • 博客积分:0
  • 博客访问:394,345
  • 关注人气:29
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
个人简介
爱生活、爱老公、爱喵星人、爱数据分析工作
点滴积累,向高级网站数据分析师的目标前进
在混沌中简单,在平凡中坚持
生命不惜,折腾不止
搜博主文章
博文

Jaro-Winkler Distance 算法

这是一种计算两个字符串之间相似度的方法,想必都听过Edit Distance,Jaro-inkler Distance 是Jaro Distance的一个扩展,而Jaro Distance(Jaro 1989;1995)据说是用来判定健康记录上两个名字是否相同,也有说是是用于人口普查,具体干什么就不管了,让我们先来看一下Jaro Distance的定义。

两个给定字符串S1和S2的Jaro Distance为:

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

杰卡德相似系数(Jaccardsimilarity coefficient)​

(1) 杰卡德相似系数

       两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。​

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

埋点

分析

分类: 数据分析
转载自:http://blog.csdn.net/zhuhengv/article/details/50911482
现在做产品经理越来越难了,天天撕完情怀还要来撕数据。数据分析能力虽然说是产品经理的一项基本功,但是我了解到的产品经理其实都对数据分析有一种淡淡疏远心理,特别的是非技术的产品经理更是对数据敬而远之。

我想来想去,原因就一个:大家现在越来越不爱数学。其实通常意义上的产品数据分析用不了多少数据知识,用到的也都是非常简单加减乘除。但是要注意到,其实加减乘除是非常强大的,可以解决大部分的问题,而且成本非常低,你使用了复杂的算法,可能精确度也只能上升不到5个百分点。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

转载

分类: 休闲阅读
磨刀不误砍柴工
原文地址:两个水管工的故事作者:sypmj
很久很久以前,在意大利中部山谷的一个小村子里,住着两位年轻人,一个叫柏波罗,一个叫布鲁诺,他们是堂兄弟。两位年轻人从小就是要好的伙伴,都有雄心勃勃的梦想。 

他们常常没完没了地谈论,在某一天、通过某种方式,让自己可以成为村里最富有的人。他们都很聪明而且勤奋,他们所需要的只是机会。 

有一天,机会来了。村里决定要雇两个人把附近河里的水运到村广场的蓄水池里去。村长把这份工作交给了柏波罗和布鲁诺。两个人各抓起两只水桶奔向河边开始了他们辛勤的工作。当一
阅读  ┆ 评论  ┆ 转载原文 ┆ 收藏 
标签:

roc

auc

介绍

计算

分类: 数据挖掘

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。

ROC曲线

需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

Install Python, NumPy, SciPy, and matplotlib on Mac OS X

 

A bit ago a friend and I both had fresh Mac OS X Lion installs so I helped him set up his computers with a scientific Python setup and did mine at the same time.

These instructions are for Lion but should work on Snow Leopard or Mountain Lion without much trouble. On Snow Leopard you won’t install Xcode via the App Store, you’ll have to download it from Apple.

After I’d helped my friend I found this blog post describing a procedure pretty much the same as below.

Update: If doing all the stuff below doesn’t seem like your cup of tea, it’s also possible to install Python, NumPy, SciPy, and matplotlib using double-click binary installers (resulting in a much less flexible installation), 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  批量提取超链接 
  一、确保宏可以启用 
  二、在此Excel中同时按Alt和F11,进入宏界面,点菜单的插入,模块,粘贴如下代码:
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

hadoop

streaming

参数

命令

方法

分类: Hadoop

Streaming简介 

Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-03-30 10:06)
最近用到python中的json模块,需要把生成的字典dict转化成json字符串输出
但是,dict中很多中文,结果转化成json字符串的时候,都是unicode的形式:“\u535a\u5ba2\u56ed”,即使再使用json.loads()也不能恢复到原来中文的形式,灰常头疼。
google,尝试下面的方法是有效的:
json_str = json.dumps(input_dict, ensure_ascii=False)
这样输出的字符串就是正常的中文了。

如果你有这种问题,不妨试一试。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-03-30 10:06)
标签:

a

hdfs

hive

本地

导出

分类: Hadoop
最近在用hive算数据,数据的输出结果要存放到hdfs上,但是,不能建表格。所以通常大家使用的语法:
insert into table table_name,这个方法就不可以用了
介绍两种数据导出的方式:
1,导出到本地:

     hive> insert overwrite local directory '/home/wyp/wyp'     > select * from wyp;  

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
好友
加载中…
访客
加载中…
评论
加载中…
留言
加载中…

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有