加载中…
正文 字体大小:

千呼万唤始出来:数据分析与挖掘实战案例精粹一书出版后记

(2013-01-30 17:07:28)
标签:

spss

案例精粹

教程

张文彤

实战

分类: 人在江湖
其实,这本书的构思和动笔很早。
其实,这本书11年11月底就交稿了。
结果,在交稿整整14个月之后才得以面世,真正的好事多磨呀!
千呼万唤始出来:数据分析与挖掘实战案例精粹一书出版后记

事实上,这本书的诞生是一个不断变化的构思和规划的结果。
2010年中的时候,因为一些原因,我开始考虑总结一下这些年的数据分析经验,算是给新老读者们一个交代。不然2004年出版的两本书也确实老了点。
但是字典式的傻瓜书籍02年已经写过了,正儿八经的教科书04年也已经写过了,本着不穿美特斯邦威,同样不会走回头路的想法,我的目标自然而然的设定成了类似于MBA教学案例的思路,写案例教程吧。

花了一两个月的时间,把手边积累的能公开的案例整理了一下,挑出来二十多个备选,下面考虑找合作伙伴,直接就想到了在IBM做SPSS业务的云飞。和他一说,一拍即合,正好这不是Modeler的数据挖掘应用方面一直没什么好书吗?云飞见客户的时候也总觉得不得劲,总不能什么东西都从头给客户科普吧,手边有本直接能送客户当数据分析和数据挖掘教材的书该多好!

那就一起干吧,数据分析+数据挖掘案例教程!

下面就开始拟全书结构,12月下旬的构思如下:
千呼万唤始出来:数据分析与挖掘实战案例精粹一书出版后记

看着确实不错,不过想想问题更大:都整成快60章了,要是每一章都把事情说清楚,全书起码上千页,拿着这么厚的一本书,定价至少上百元,当客户的敲门砖倒是不错,可几个学生买得起?!

不行,不干,老子不是那种玩阳春白雪的人,老子要的是大批寒士共欢颜,天下无人不通共的效果,最好奥观海同学那边也拿了一本没事看着来学中文,既然如此,拆哪!

经过思考,发现:
1. CCSS这个案例几乎可以串起整个软件入门和基础分析部门;
2. 高级统计分析方法写案例就没法写全方法,写全方法就很难每个都找到最佳案例;
3. 数据挖掘和企业应用很难有可供公开的案例来写,都是带保密协议的,乖乖这个不能随便动。

这样一来,原定的一本书重新分解如下:
1. 重写一本基础教程,用CCSS案例贯穿,外加其他简单案例来进阶;
2. 高级教程更新成最新版,但不去写大案例了,重点满足方法体系的完整介绍;
3. 大案例和数据挖掘应用案例全部归在一本书里面,作为最高端的实战应用宝典出现。

上面的1,最终形成的就是SPSS统计分析基础教程 第2版,既然还是定位为教程,那么还是找高教拉倒。本来想改名为实战案例教程的,后来想想还是用老名字吧,免得有些老师看了新书名反而吓的不敢用书了。。。
这本书,每天晚上菲菲睡了以后写1-2个小时(上班时间可不能写的),周六开车送菲菲去跳舞学画画,然后我就在车里敲电脑,素材备齐之后,大概一周完成一章,然后就反复改拼命改改好了还继续改。。。11年中写完交稿,然后SPSS从19升级到了20。。。
我勒个去。。。
照说影响也不算大,不过编辑本来说能赶上9月开学出版的,最后也没赶上,那我就说,干脆也别10月了,你给我一个月时间,我改到20版拉倒。
最后就是大家见到的12年11月出版的这本基础教程第2版。

之所以跑去说基础教程,是因为他和现在这本案例精粹本来就是一个风格和体系下的,相比之下,反而是高级教程第2版仍然属于04年的老体系。

11年中基础教程完工,马上就开始动手案例精粹,仍然是每晚上菲菲睡了以后写1-2小时,周六继续一整天。。。后来写的我都想把这本书献给菲菲了。。。可再后来有了岚妹,想想这样一来姐姐有一本,将来小家伙一定会闹着我再写一本献给她,算了还是不搞攀比之风比较好。。。

最终,这本书11年11月底正式交稿。
我想4-6个月肯定就出来了吧,结果。。。漫长的等待才开始。
12年6月份,清样出来了,我一看。。。我勒个继续去。。。
千呼万唤始出来:数据分析与挖掘实战案例精粹一书出版后记

好吧。。我承认文字编辑很敬业,可是专业术语之类的全都给我改了个乱七八糟,我还得全部都改回来。。。
花了半个月时间,和云飞把清样修回了(期间重新做图无数。。。我哭。。。),心说这下可以了吧,哪知道。。。

事情还没完。
我们为了方便读者,准备书后附光盘,提供案例文件和Statistic和Modeler的试用版,然后。。。
清华出版社要求我们提供IBM许可本书使用软件试用版的版权证明,否则就不能放试用版。。。大哥。。。你难道不知道那个只是试用版吗?难道你不知道像IBM这种公司要盖个公司章出个证明,那流程可是比国务院改革公章出个证明还要麻烦的吗?

云飞很帮忙,答应向上级请示,但让我们做好非常充分和必要的长时间等待的心理准备。。。
然后他就写了mail汇报上去了。。。
然后mail就转到更高一层去了。。。
然后。。。一个月以后,这件事情就已经跑到IBM美国总部的不知道那个层级去了。。。
然后。。。两个月之后,我们决定不等了,光盘不放软件只放案例文件,试用版我自己找个网址提供下载,这就是现在的人大经济论坛的下载点。
然后。。。截至目前的8个月之后,这个申请版权许可证明的流程还没走完。。。

这一折腾,两个多月浪费了。
事情还没完。
9月初,光盘复审测试报告出来,发现很多案例在Modeler里报错。我一看,大部分不是我们的错,要么是ODBC配置不对,要么是Modeler软件配置不对,一一回报,继续等。

事情还没完。
10月底,光盘第二次复审测试,还是没通过,还是有两个错,我一看,还是ODBC的问题,重新回报。

事情还没完。
很快第三次复审测试又没通过,一个流还是报错,我一看,那个流是往数据库里写数据表的,写进去以后,第二次就会报错,所以不能重复运行的。。。
尼玛。。。

好嘛,开始构思这本书的时候我们都还没做好要第二个宝宝的准备呢,结果等这书最终出版了我们岚妹都9个多月了。。。

吐槽完毕,下面说说这本书的定位。
坦白讲,这本书确实可以从初学者到资深数据分析人员全部适用,但是对有时间的初学者而言,最好还是先去看基础教程。
因为案例精粹这本书实际上是讲统计思想和实战应用的,如果对工具没入门,那么就会花很多在理解软件的基本操作上,非常影响阅读体验。
而基础教程本来就是案例精粹的前传,统计思想一脉相承,看完这个再去读案例精粹,很多地方自然就明白了。
至于数据挖掘,我从来都反对直接去学数据挖掘,那和不会走直接学跑没什么区别,所以想学习数据挖掘的读者可以直接看案例精粹,但是需要至少先看完本书的第一、二部分,然后再去看第四部分的数据挖掘案例,否则很多统计思想仍然是夹生饭。

那么高级教程呢?
高级教程的作用是覆盖完整的方法学体系,毕竟案例精粹的20章里面还有很多方法没涉及,方法的细节也没用到,需要系统学习高级统计方法的朋友,高级教程那是必备的。
高级教程和案例精粹不是谁包含谁的问题,两本书互相有交集也有区分,合在一起就是完成的高级统计方法案例教程。比如说案例精粹里面讲解了神经网络模型的实际案例,但这个模型的使用细节和方法学原理,就只能在高级教程中去细述。

一定有朋友会问,你丫就知道骗钱,干嘛不两本书合成一本书写?!
问题是。。。如果这样写,而且是认真写,那一定是一本页码上千页定价上百元的大部头。。。读者买这么厚的东西,是准备拿去当板砖砸人的吗。。。
再重复一遍,老子不是玩阳春白雪的,数据分析本来也不应当是阳春白雪的东西。。。

还有些东西留到高级教程第2版出版后再写吧,今年春节估计要带着高级教程的清样过了。。。
这几本书的细节大家直接上www.statstar.com看吧,东西已经都传上去了。

张文彤
2013.1.30

PS: 这篇博客不到一个小时一气呵成,很久没有写这样流畅的文字了,天天写公司的八股文实在是让人郁闷至极,再这样下去会得老年痴呆的。。。

0

阅读 评论 收藏 转载 喜欢 打印举报
已投稿到:
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有