发博文
天气
个人资料
wangliang_f
wangliang_f
  • 博客等级:
  • 博客积分:1442
  • 博客访问:6,908
  • 关注人气:4
wangliang.f@Gmai
访客
加载中…
好友
加载中…
博文
(2012-02-14 17:45)
标签:

杂谈

    把文章先丢到arxiv了,这个月再改改,主要是加点参考文献,还有就是把语句给搞搞。

    另外,把相关的代码看懂了要@¥#@#¥@#¥

    多线程编程方面也看看,特别是服务器编程的基本方法。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2012-02-11 18:03)
标签:

杂谈

分类: dna搜索研究

   dna分词的第一版终于写好了。。。。。。。。。,后面除了修改,征求意见外,还要尽快把相关的代码给整理好,这两周先把论文的基本错误给改了,然后把代码整理好了。东西发出去找些人看看,征求一下意见。

   论文就是改出来的,争取3月初把稿件给投出去。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2012-02-02 00:10)
标签:

杂谈

分类: dna搜索研究

  dna目前的主要问题:

1 如何判定不同基因组使用的是同一种语言。

2 分词词典如何构建,主要是不同字长的词如何合并的问题。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2012-01-30 14:37)
标签:

杂谈

2012年就等着看地球大爆炸了

大致安排一下今年的规划,要是这几年还没有什么研究成果,估计后面就越来越难啦,历史证明。今年的目标:

 

1 把DNA搜索的东西搞定,争取推广到NCBI。

2 做几个基于twitter的app,然后赚点钱

3 把基本的代码和算法水平提高,基础打牢固。

 

工作计划主要根据工作安排。

 

论文计划:

2月:把DNA分词的论文搞好投出去。只挖矿,不灌水,让别人来灌水,哈哈。

3-7月:开发相应的软件系统,进行推广。

 

自己的app开发计划:

1 基于twitter的热点分析。

2 基于twitter的观点分析。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2012-01-30 14:32)
标签:

it

论文规划

1 2月5日之前,提交到arxiv,整理程序,发mail,征求意见。

2 2月12日之前,把词的构建再搞一搞,按照意见改一改。

3 2月19日之前,把文章给投出去。

    知道算法,要能够迅速给出数据结构和实现的方式,这种技能还需要在实践中不断的提高,这是工作的基本技能,一定要熟悉。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2012-01-28 11:00)
标签:

杂谈

分类: dna搜索研究

   下个周末之前,先把文章先写完整了,放到arxiv上,字长的先不要纠结,后面主要是词典的构造方面,把相关的数据结构,还有前向、后向稳定性之类的再总结一下,搞出一个稍微正式的词典出来,字长不用太长,12就行,防止内存溢出。

   现在开始挖坑不灌水,哈哈

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2012-01-15 22:59)
标签:

校园

论文计划

1 1月23号之前把文章给写好了,写成一般的格式,先搞到arxiv上,发给几个老大看看,接受一些反馈意见。

2 2月底之前把文章给投出去,这个应该能中个大的,哈哈。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: dna搜索研究

    用srilm处理一个3G的语料,训练3元语言模型,32G内存根本就不够用,比CMU那个差远了,不过CMU的没人维护了

   srilm 的faq里面给出了一个解决方案。就是把文件给分开了,然后分别算词频并merge起来,做成一个语言模型,具体见:http://www-speech.sri.com/projects/srilm/manpages/srilm-faq.7.html

 

其基本方法:

1 把文件给分割开,放在一个目录下,然后生成一个文件名列表文件,如filelist ,一般使用按行分割的形式,split -l 100 test.txt out

使用 make-batch-counts分别统计各个文件中的词频make-batch-counts filelist 5 cat counts -order 3,其中filelist为需要统计的文件名列表,5为文件batch的个数,就是5个小文件分成一组进行处理。cat lmcount 表示输出到counts,后续则是提交给ngram-count的参数,需要什么写什么就

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: dna搜索研究
 ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_01/ 上面有三种fasta版本 hs_alt_Hs_Celera_chr1.fa.gz hs_alt_HuRef_chr1.fa.gz hs_ref_GRCh37.p2_chr1.fa.gz 应该下哪一个是人类一号染色体的基因序列? 

问题补充:

 说明文档里面的这么一段话: Each file is named according to the abbreviation for the species, whether the assembly is the reference assembly (_ref_) or an alternate assembly (_alt_), the assembly name, and either the chromosome label or the scaffold group (unlocalized, unplaced, or alts).  又是什么意思呢? 
 这三种版本的序列释放的时间不一样,另外,是由不同的组织公布的。 GRCh37.p2这个版本的是由Genome Reference Consortium与2010年7月公布的, HuRef这个版本是由 J Craig Venter Institute 于2007年5月公布的, Celera这个版本的是由Celera公司与2001年11月公布的, 这三个版本序列有差异,但是都是人类一号染色体的基因序列,都是可以参考的,GRCh37.p2这个版本的最新,也许最详细。  Each file is named according to the abbreviation for the species, whether th
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

教育

分类: dna搜索研究

      基因组的全系列下载最方便的就是通过NCIBI的ftp直接下载。

 

ftp地址为:


  基因组资源 ftp://ftp.ncbi.nih.gov/genomes/ 

     

  包括人、小鼠、果蝇、线虫等模式生物,以及微生物、植物等的基因组。 
						
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有