加载中…
加载中…
标签:
杂谈 |
1 如何判定不同基因组使用的是同一种语言。
2 分词词典如何构建,主要是不同字长的词如何合并的问题。
标签:
杂谈 |
2012年就等着看地球大爆炸了
大致安排一下今年的规划,要是这几年还没有什么研究成果,估计后面就越来越难啦,历史证明。今年的目标:
1 把DNA搜索的东西搞定,争取推广到NCBI。
2 做几个基于twitter的app,然后赚点钱
3 把基本的代码和算法水平提高,基础打牢固。
工作计划主要根据工作安排。
论文计划:
2月:把DNA分词的论文搞好投出去。只挖矿,不灌水,让别人来灌水,哈哈。
3-7月:开发相应的软件系统,进行推广。
自己的app开发计划:
1 基于twitter的热点分析。
2 基于twitter的观点分析。
标签:
it |
论文规划
1 2月5日之前,提交到arxiv,整理程序,发mail,征求意见。
2 2月12日之前,把词的构建再搞一搞,按照意见改一改。
3 2月19日之前,把文章给投出去。

标签:
校园 |
论文计划
1 1月23号之前把文章给写好了,写成一般的格式,先搞到arxiv上,发给几个老大看看,接受一些反馈意见。
2 2月底之前把文章给投出去,这个应该能中个大的,哈哈。
。
其基本方法:
1 把文件给分割开,放在一个目录下,然后生成一个文件名列表文件,如filelist ,一般使用按行分割的形式,split -l 100 test.txt out
2
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_01/ 上面有三种fasta版本 hs_alt_Hs_Celera_chr1.fa.gz hs_alt_HuRef_chr1.fa.gz hs_ref_GRCh37.p2_chr1.fa.gz 应该下哪一个是人类一号染色体的基因序列?
问题补充:
说明文档里面的这么一段话: Each file is named according to the abbreviation for the species, whether the assembly is the reference assembly (_ref_) or an alternate assembly (_alt_), the assembly name, and either the chromosome label or the scaffold group (unlocalized, unplaced, or alts). 又是什么意思呢?
这三种版本的序列释放的时间不一样,另外,是由不同的组织公布的。 GRCh37.p2这个版本的是由Genome Reference Consortium与2010年7月公布的, HuRef这个版本是由 J Craig Venter Institute 于2007年5月公布的, Celera这个版本的是由Celera公司与2001年11月公布的, 这三个版本序列有差异,但是都是人类一号染色体的基因序列,都是可以参考的,GRCh37.p2这个版本的最新,也许最详细。 Each file is named according to the abbreviation for the species, whether th
ftp地址为:
基因组资源 ftp://ftp.ncbi.nih.gov/genomes/
包括人、小鼠、果蝇、线虫等模式生物,以及微生物、植物等的基因组。