稀疏特征的AutoEncoder_梁斌

个人资料

微博

正文字体大小：大中小

稀疏特征的AutoEncoder

(2013-08-20 10:39:41)

最近我做一个试验，做了很久，各种尝试，一直失败，刚刚取得一些成果，简单说一下。

我们用豆瓣标签语料，也就是每一本书，一个音乐，或者一个电影都会有若干个标签，标签总数达到20多万。

如果标签在一定程度上能代表这些人的兴趣，这一点成立的话，现在我们希望知道整个豆瓣用户的兴趣群落。

通过聚类的方法自然可以，但是否存在更精细，更可调的兴趣群落呢，想粗放就粗放，想精细就精细？

我们用autoencoder的方式来试验，用了5个隐节点的hidden layer。

例如某电影的标签是 A B D，全体标签集合是26个字母

该电影的输入是 1 1 0 1 0...0。通过autoencoder能够利用边信息来压缩表示到隐节点信息，再从隐节点信息回复出原始信号（即1 1 0 1 0...0）

最终得到了每个object的压缩表示，然后在这个压缩表示的空间中，找聚合的点，再看这些聚合点的标签。得到如下图的结果。

这个图表明我们的压缩表示是正确的，稀疏特征也实现了压缩表示。

在整个试验的过程中遇到最大的两个问题

1）计算量巨大无比，优化空间巨大

2）特征太稀疏了，不像图像和音频那样稠密

应对这两个问题，采取了一些trick，也最终发现这个领域的东西很多东西是可以解释的，但不可以被prove，或者目前还无法prove。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report