加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

实验进度安排

(2007-07-26 18:52:51)

Deadline810

实验要求

1)数据预处理:利用rainbowLucene20 news group向量化。

2)半监督学习:

第一,对所有的数据上分别利用谱图排序方法,PrankRSVM,(KNNKmeans备用)进行排序,分析实验结果。

第二,当追加新的无标签数据(数据量递增如550200等)时,重新进行排序,比较谱图排序与PrankRSVM等的性能优劣,理论上应该好于其他算法。

对于数据的选取可以灵活,也可以利用全部数据剔除掉部分数据进行实验。

 

 

补充关于PrankRSVM需要用到的数据格式说明:

郑楠整理出来的实际是所有的term,即遍历所有文档之后对每个term进行统计,得出的就是以文档数为行数,所有term数为列数,每篇文档中包含该termtfidf为值的初始矩阵(这里暂且我这么称呼它,当然再进行换算,相邻相减得到郑楠rankprop输入的矩阵),而PrankRSVM需要的是querydocument交集term的单个特征之和。这样的话利用初始矩阵,计算querydocument的交集,按照郑楠的说法query来自document的子集,那么也就是query中的所有term计算特征值。这个query的选取方式我再看一下。首先要得出query有哪些,每个query对应的document有哪些,进行PrankRSVM实际想要的是每个querydocument交集中的所有termtfidf和。对每个query的具体操作如下:首先找出query和每个documentterm的交集,然后在初始矩阵中找到这些term在该文档上对应的值,累加即可。输出格式如下:

2 qid:1 1:3.00000000  #docid = 40626

其中2表示类别,qid:1表示第一个query1:3.00000000表示第一个向量的特征值为3.000000#docid=40426表示文档的编号。当然前提是如果不麻烦的话,就转换为上述格式,这样的话郑楠的工作量加大,我就省事很多了呵呵,只需要跑一下就可以了。如果麻烦的话可以先输出我上面说的所谓的初始矩阵,剩下的格式转换工作我去做。

     除此之外我想对特征的选取做个survey,因为tfidf属于basic feature,不能很好的反映出query和document的关系。同时对与query如何选取的还有些疑问,明天问一下师兄。

    笨笨感觉很幸运也很幸福,有师兄和师弟忙着,笨笨可以不用费心,还可以跟他们学不少东西。不过还是不要太放松自己了,过去的事情都让它过去吧,呵呵,笨笨,加油!

0

阅读 收藏 喜欢 打印举报/Report
前一篇:工作总结
后一篇:Rainbow
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有