标签:
it |
从J Langford的博客上了解到Alex Smola的博客,Adventures in Data Land,最近也开张了。以前对他的了解最多的还是集中在Bundle方法进行SVM训练,以及CofiRank中用Learning to Rank的方法来解决协同过滤问题。这次仔细查了查他背景,发现他原来还是Learning with Kernels的合著者。
和J Langford博客的天马行空不同,Alex Smola的目前几篇博文都跟待发表的学术论文差不多。我觉得他的博客其实可以仿照Inside Windows等畅销书,取名为Inside Machine Learning. 目前发表的几篇博客里已经介绍了一些他们广泛使用,但没有在论文里发表的小技巧。对于从事大规模数据处理的工程人员来说,Alex Smola的博客应该需要经常去光顾一下。他是澳洲的大学教授,同时也是Yahoo!非常资深的研究人员,虽然Yahoo!的搜索运营的不是很顺利,但他们的技术能力绝对可以和Google媲美。
今天先写到这里,过两天有空再来补充。
-------------------------------------------------------------------------------------------
标签:
it |
早就知道这本概率图模型领域的新教材,一直在等有没有免费的电子版本可供下载,等了一年多。最近终于忍不住了,斥资购买了一本。书到后大概浏览了一下,感慨良多,n年前做博士的时候如果有这么一本书该多好啊。
此前概率图模型方面引用的最多的是Jordan的草稿An Introduction to Probabilistic Graphical Models,一本真正还没出版就成为经典的书。最开始它只在国外若干知名大学的小圈子里传播,在一些课程资料的列表里能看到它的名字,但并不提供外部下载。直到三四年前,这个书才流传到国内,被张贴在了个大学术论坛的下载频道。这本书很适合初学者,不过至今还没有正式出版,可能Jordan同志太忙了吧。
另外一本广为使用的相关图书是Bishop的Pattern Recognition and Machine Learning. 不过这本书的核心内容是阐述所谓的fully Bayesian model, 虽然这和概率图模型的关系如同表里,但毕竟表和里不完全是一个东西。这本书06年出版,很快就可以在一些研究所的论坛里下载,目前也已经和流言一样传得满世界到处都是了。这本书的推导非常严谨,这样带来的问题是以前没接触过的内容,比如Relevance Vector Machine, 顶多能在枕上看
标签:
it |
偶然发现《Mahout in Action》的部分章节在CSDN可以下载了,立即下载了一份。看了一下,只有第一到第九章。总体来说书的内容远低于预期。对基本的数据挖掘算法讲的太多,但讲得又不透彻,对hadoop环境下数据挖掘算法设计问题讲得太少。比起《Data-Intensive Text Processing with MapReduce》有很大差距(这本在作者主页上也可下载)。Apache Mahout本身有些什么特性,提得也不多,感觉完全可以压缩成10页左右的小指南。比起有些优秀书籍,比如Probabilistic Graphical Model,简直是有天壤之别。
今天先写到这里,过两天再来补充。
--------------------------------------------------------------
发现百度空间用起来比较方便,那边技术交流也更方便一点,决定搬家去百度空间。有兴趣请点击这里访问我的新家。
那边现有的新博文: