(2010-07-27 08:06)
各位同学,大家下午好!接下来大概花1个小时的时间和大家分享一下数据分析的一些基本思想,我给它起了个名字叫做用数据说话。内容都是个人的一些心得,比较肤浅!如有不足之处,希望大家谅解!废话不说了,现在咱正式开始。
用数据说话,就是用真实的数据说真实的话!真实也可以理解为求真务实。那么,数据分析就是不断地求真,进而持续地务实的过程!用一句话表达就是用数据说话,用真实的数据说话,说真话、说实话、说管用的话。
1.用数据说话
数据本不会说话,但是面对不同的人时,就会发出不同的声音。现在我们以《荒岛售鞋》这个老故事为引例,从数据分析的角度来解读,看看能不能开出新花?为防止大家案例疲劳,我尽量用新的表达方式把故事罗嗦一下!
话说郭靖和杨康,被成吉思汗派去美丽的桃花岛进行射雕牌运动鞋的市场拓展。郭靖和杨康一上桃花岛就惊讶地发现这里的居民全部赤脚,没有一个穿鞋的,不论男女还是老少,莫不如此。杨康一看,倒吸了一口凉气,说:唉!完了,没啥市场!郭靖却不这么认为,马上掏出了新买的IPHON
(2010-04-04 15:48)
主成分分析是一种多元分析中最常见的降维和赋权方法。然而,在实际的应用中,许多人在没有搞清楚方法的意义时就大胆使用,很有点好分析不求甚解的味道。要知道这样的行为不仅害人而且害己。所谓害人,就是害了阅读你报告的人;所谓害己,就是你会一而再,再而三的犯错。
第一问:为什么要降维?在实际分析问题时,
(2010-03-31 09:19)
今天在qq群里听到一些网友在讨论数据分析的话题。有人正为自己学会了spss而高兴,有人说自己还略懂sas,还有人提到了sql查询语言。大家都在积极地学习,希望能在数据分析领域有所建树。然而在这些网友中,统计科班出身的并不多。所以,他们一味地认为软件会的多,就表明数据分析能力强。其实,这是一个误区。纵然你练了十八般武器,但并见得你就能拼得过别人的三板斧。我以为统计软件学起来并不难,难得是理解统计方法的内涵。出于对大家的引导,我问了三个问题,一来帮大家义务扫盲,二来希望大家能重视基础。
(2010-03-24 23:13)
在日常的统计分析中,标准差和标准误是一对十分重要的统计量,两者有区别也有联系。但是很多人却没有弄清其中的差异,经常性地进行一些错误的使用。对于标准差与标准误的区别,很多书上这样表达:标准差
(2010-03-20 22:43)
前段时间,看到这样一个案例。案例要求衡量学生的文科成绩与理科成绩之间的相关性。文科成绩包括语文、政治、历史,理科成绩包括数学、物理和化学。那么这道题该怎么做?面对多元相关分析,你可能会想到两种方法:一种是采用典型相关分析,计算这两组变量间的典型相关系数;另一种是采用结构方程中的潜变量相关,将文科和理科看成是潜变量,将语文、政治、历史看成是文科的测量变量,数学、物理、化学看成是理科的测量变量,然后计算两个潜变量间的相关系数。从理论上看貌似这两种方法都可以,但是计算的结果却可能相差甚远。
(2010-03-18 13:44)
大年初一的早上,接到9岁小外甥的拜年电话,内容一共三句话。“舅舅过年好!今年你不回太原,我的压岁钱又少了。今年的春节联欢晚会不好看哈?”外甥吐字清晰,言简意赅。虽然交谈中的跳跃性很大,但也重点突出,堪称我虎年收到最独特的拜年。第一句纯粹例行公事,第二句表达的才是真实心理,第三句则紧贴时事,发表热点
(2010-03-16 11:57)
Cronbach信度系数α的取值范围到底是多大?真如好多专业书上所说是【0,1】吗?对于α的取值范围很多数书上的表达都比较模糊,普遍认为α信度系数的值一般在0和1之间。更有学者给出了经验判定值,他们认为在基础研究中α系数至少应达到0.8才能接受,在探索研究中α系数至少应达到0.7才能接受,而在实务研究中α系数只需达到0.6即可。那么,到底α的理论取值范围是多大呢?
我们先看α信度系数的计算公式:
(2010-03-15 12:54)
夜深人静,你却烦躁不安。一头是调研报告的最后期限,一头是调查数据的百思不解。因子、回归、聚类、判别都使用过了,神经网络、关联规则和决策树也尝试好多次了,可面前的这堆数据还是无法解释。你打一个哈欠,将烟头狠狠地拧在烟灰缸上,然后起身冲下了今晚的最后一杯咖啡。你知道这一杯下去,天就要亮了。接下来的白天,你要先忍受老板的臭骂,再接受客户的罚款。想到这里,你可能再也忍不住了,大声地爆出两句粗口。骂那个狗日的督导不称职,骂那些兔崽子访问员又造假。
如果能在问卷整理的时候就及时发现问题,那么你就不会在deadline的前夜被劣质的数据折磨的如此狼狈不堪。现在,我分享一下数据抓鬼的三班斧,一来能帮你审核数据、辨识真假,使得从统计秘籍上学来的分析招数能有用武之地;二来也能间接自律一下前线的调研,顺便整治一下市调行业的不良之风。
第一招:设置同质题目,一个问题,多处提问。
同质题目是指一个问题在问卷中设置两种问法,对一个受