加载中…
个人资料
梁斌
梁斌
  • 博客等级:
  • 博客积分:0
  • 博客访问:7,396
  • 关注人气:1,097
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

稀疏特征的AutoEncoder

(2013-08-20 10:39:41)
最近我做一个试验,做了很久,各种尝试,一直失败,刚刚取得一些成果,简单说一下。

我们用豆瓣标签语料,也就是每一本书,一个音乐,或者一个电影都会有若干个标签,标签总数达到20多万。
如果标签在一定程度上能代表这些人的兴趣,这一点成立的话,现在我们希望知道整个豆瓣用户的兴趣群落。

通过聚类的方法自然可以,但是否存在更精细,更可调的兴趣群落呢,想粗放就粗放,想精细就精细?

我们用autoencoder的方式来试验,用了5个隐节点的hidden layer。
例如某电影的标签是 A B  D,全体标签集合是26个字母
电影的输入是 1 1 0 1 0...0。通过autoencoder能够利用边信息来压缩表示到隐节点信息,再从隐节点信息回复出原始信号(即1 1 0 1 0...0)

最终得到了每个object的压缩表示,然后在这个压缩表示的空间中,找聚合的点,再看这些聚合点的标签。得到如下图的结果。 

http://s13/mw690/593af2a7gx6BZRg5HrK5c&690

这个图表明我们的压缩表示是正确的,稀疏特征也实现了压缩表示。

在整个试验的过程中遇到最大的两个问题
1)计算量巨大无比,优化空间巨大
2)特征太稀疏了,不像图像和音频那样稠密

应对这两个问题,采取了一些trick,也最终发现这个领域的东西很多东西是可以解释的,但不可以被prove,或者目前还无法prove。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有