Hadoop Hbase适合存储哪类数据?
最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row-
oriented行
导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row-
oriented行导向存储这个概念)。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如,如果某个表
UserTable有10列,但在存储时只有一列有数据,那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。
Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。
打个比方,ruby和python这样的动态语言和c++、java类的编译语言有什么不同?
对于我来说,最显然的不同就是你不需
从
http://www.batteries.com 搜索引擎优化效果谈起
Batteries.com网站优化的经验和教训 是胡菜菜 胡宝介
最新的一篇文章,估计是这是他们的一个外国客户。国内做搜索引擎优化的公司能得到国际客户订单不容易。先祝贺他们。Zunch
已经进入中国了,ses 最近也大力作宣传,希望这个行业能进入良性发展。
为了学习他们的优化案例,我对 batteries.com 的优化结果作了一些分析,数据如下:
1、首先是总体的PR值分布抽样调查:
PR=2 PR=3 PR=4 PR=5
网页数: 1 1 31 40
可以看出pr值集中在4和5之间,至于pr的分布式不是应该像一个正态分布还正在研究中。
2、BATTERIES.COM 的有效关键字大约有 130 个。其中含 battery 的51个, 含 batteries 的
52个。
3、搜索引擎优化,最后的结果看排名,以下是 google 排名前 3,10,20,30 条的统计结果:
Compass Framework 0.8 + Lucene Jdbc Directory
发布者:Shay Banon on January 10, 2006 @ 08:24 PM
我们很荣幸的宣布Compass Framework 0.8.0 发布了。这是一个基于 Lucene 的java
搜索引擎框架。这个发布版本的主要特色是:可以把Lucene 索引存储在一个数据库中。
为了能够存储Lucene 索引文件在数据库中,主要实现了2个部分:
一个完全的 Lucene Jdbc Directory implementation ,这部分代码完全独立于Compass
的他其模块,可以使用在纯Lucene实现的环境中。这个发布版本支持主流数据库,及其特色语法。
第二个部分是集成 Jdbc Directory 和 Compass
Framework,仅仅需要修改配置文件就可以实现集成。集成的内容包括:数据源提供 DBCP ,c3p0 ,JNDI等 和
几个有关提高性能的配置。
把Lucene 索引文件放在数据库中可以创建一个搜索集群。因为所有的集群节点都存放在一个中央数据库中。
更多信息可以参考: Upgrade and Change log 。
有人也对 Compass 提出了质疑:
因为hibernate 3.1 可以直接支持 lucene c
一种面向搜索引擎的网页分块、切片的原理,实现和演示
最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索
的ppt。很有启发。
于是自己也根据自己的理解准备做一个实现。
实现前提假设:
1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。
2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似:
http://news.soufun.com/2005-11-26/580107.htm
http://news.soufun.com/2005-11-26/580175.htm
而下面两个url的网页结构不相似:
http://news.soufun.com/subject/w
和王通商榷:电子商务的核心问题是什么?
最近读了王通的关于电子商务的核心问题是什么的文章,见:
http://home.donews.com/donews/article/8/84558.html。读完之后的感觉是和王通的观点不一致,下面是我的看法。
第一个方面:我认为王通把电子商务和商务活动放到了对等的位置。
比如:王通认为:我对电子商务的概述是:利用网络(互联网)赚钱就是电子商务!。
科特勒认为: 商务的核心是营销. 王通认为:电子商务的核心问题是网络营销。
按照王通的逻辑,利用电话赚钱的业务就是电话商务,利用直销方式赚钱的就是直销商务了。这样的描述是按照完成商务过程的方法、途径做的分类,并没有阐述这种分类商务的核心问题。电子商务是商务活动的一种,而商务活动的核心是营销,这一点大家都比较认同,但电子商务的核心是网络营销的观点,我觉得需要推敲一下。
关于什么是电子商务,网络上有各种各样的版本,其中比较权威的是:1997年11月6日至7日在法国首都巴黎,国际
什么是垂直搜索引擎(之二)(2005-08-29 16:08)
什么是垂直搜索引擎(之二)
垂直搜索引擎的三个特点:
1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:
比如:找工作的搜索引擎 [url]www.deepdo.com[/url]
的数据来源于:[url]www.51job.com[/url] , [url]www.zhaoping.com[/url] ,
[url]www.chinahr.com[/url] 等等;
股票搜索引擎 [url]www.macd.cn[/url] 的数据来源于: [url]www.jrj.com.cn[/url] ,
[url]www.gutx.com[/url] 等股票站点;
2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:
比如:我们找工作关注的:
职位信息: 软件工程师;
公司名称,行业名称:软件公司,外包行业等;
地点:北京,海淀;
3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:
比如: 找:海淀 软件工程师 的工作等。
垂直搜索引擎站点的8条准则:
鲁迅先生就ERP实施问题答记者(2005-05-13 15:09)
鲁迅先生就ERP实施问题答记者
鲁迅,男,20世纪20年代开始引入西方ERP管理理念,历时15年欲以此改造中国国民劣根性,未果,寻病终。此为央视记者与晚年鲁迅先生就ERP在中国实施的诸多问题进行的探讨。
记者:鲁迅先生
,ERP做为一个流行的概念逐渐火起来了,国内的各行各业争相上ERP系统,先生怎么看待这一社会现象呢?
鲁迅:他们应该有新的生活,为我们所未经生活过的。(《呐喊一故乡》)
记者:那鲁迅先生,做为实施ERP的前辈,您能用一句话来告诉我们的观众ERP到底是什么吗?
鲁迅:他是这样的使人快活,可是没有他,人们也便这么过。(《呐喊一孔已己》)
记者:先生是中国引入ERP概念来改造国民性的第一人,但至今仍然没有结果,做为先驱,您能谈一下实施ERP的感想吗?
鲁迅:总觉得不大合适,可是无法形容出这不合适来。(《朝花夕拾-琐记》)
记者:我们知道,ERP的管理理念是针对制造业设计的,但国内很多不是制造业的公司也要上ERP,这是不是选错方向了呢?就象您用ERP来改造国民性?
鲁迅:我真傻,真的(彷徨-祝福)
一个七十年代人苦涩的考研历程(2005-05-13 12:42)
一个七十年代人苦涩的考研历程
--------------------------------------------------------------------------------
发布者:张帝 原作者: 吴志翔 发表日期:2005-02-03 08:45:48.233
【摘要】
一
我总觉得有些事情,别人做起来似乎很容易,而我却常常难以为继,中途放弃,比如考研,有时候回想起来竟然如同一个缠绕了十多年的梦魇。1991年秋冬第一次打算考研时还是个在校生,我报考了复旦大学,选择的导师是朱立元教授。我读过他的那本《真的感悟》,叹服于其深厚的学术功力。我还给他写了一封信,表达了自己对于美学的理解和想要登堂入室的强烈愿望,记得信的开头是:“我立志报考……”。尽管朱立元与我素昧平生,但他还是给我回了一封信,告诉我他当年不招生,不过同样欢迎我报考复旦。
在奏响了一个壮怀激烈的序曲以后,考研进入了单调而艰苦的徒步作战阶段。我很快就感到了厌倦。尤其是重读刚入学时就看过的朱光潜《西方美学史》等必读书时,那种重复的无聊感挥之不去。很快,我开始怀疑自己考研的合理性:我可以创作,为什么非得做学问?治美学这种玄学又有什么意义?
一只特立独行的猪(2005-05-12 18:33)
一只特立独行的猪
文/王小波
插队的时候,我喂过猪、也放过牛。假如没有人来管,这两种动物也完全知道该怎样生活。它们会自由自在地闲逛,饥则食渴则饮,春天来临时还要谈谈爱情;这样一来,它们的生活层次很低,完全乏善可陈。人来了以后,给它们的生活做出了安排:每一头牛和每一口猪的生活都有了主题。就它们中的大多数而言,这种生活主题是很悲惨的:前者的主题是干活,后者的主题是长肉。我不认为这有什么可抱怨的,因为我当时的生活也不见得丰富了多少,除了八个样板戏,也没有什么消遣。有极少数的猪和牛,它们的生活另有安排。以猪为例,种猪和母猪除了吃,还有别的事可干。就我所见,它们对这些安排也不大喜欢。种猪的任务是交配,换言之,我们的政策准许它当个花花公子。但是疲惫的种猪往往摆出一种肉猪(肉猪是阉过的)才有的正人君子架势,死活不肯跳到母猪背上去。母猪的任务是生崽儿,但有些母猪却要把猪崽儿吃掉。总的来说,人的安排使猪痛苦不堪。但它们还是接受了:猪总是猪啊。
对生活做种种设置是人特有的品性。不光是设置动物,也设置自己。我们知道,在古希腊有个斯巴达,那里的生活被设