<?xml version="1.0" encoding="utf-8" ?>
<!-- generator="FEEDCREATOR_VERSION" -->
<rss version="2.0" xmlns:sns="http://blog.sina.com.cn/sns">
    <channel>
        <title>图林小小生</title>
        <description></description>
        <link>http://blog.sina.com.cn/maris</link>
        <lastBuildDate>Sat, 11 Feb 2012 18:03:57 +0800</lastBuildDate>
        <generator>FEEDCREATOR_VERSION</generator>
        <language>zh-cn</language>
        <copyright>Copyright 1996 - 2009 SINA Inc. All Rights Reserved.</copyright>
        <pubDate>Sun, 12 Feb 2012 11:01:38 +0800</pubDate>
        <item>
            <title>2012-02-11</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100ycjf.html</link>
            <description><![CDATA[<p>&nbsp;&nbsp;
dna分词的第一版终于写好了。。。。。。。。。，后面除了修改，征求意见外，还要尽快把相关的代码给整理好，这两周先把论文的基本错误给改了，然后把代码整理好了。东西发出去找些人看看，征求一下意见。</P>
<p>&nbsp;&nbsp; 论文就是改出来的，争取3月初把稿件给投出去。</P>]]></description>
            <author>wangliang_f</author>
            <category>dna搜索研究</category>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100ycjf.html#comment</comments>
            <pubDate>Sat, 11 Feb 2012 18:03:57 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100ycjf.html</guid>
        </item>
        <item>
            <title>目前的主要问题</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100xzch.html</link>
            <description><![CDATA[<p>&nbsp; dna目前的主要问题：</P>
<p>1 如何判定不同基因组使用的是同一种语言。</P>
<p>2 分词词典如何构建，主要是不同字长的词如何合并的问题。</P>]]></description>
            <author>wangliang_f</author>
            <category>dna搜索研究</category>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100xzch.html#comment</comments>
            <pubDate>Thu, 02 Feb 2012 00:10:04 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100xzch.html</guid>
        </item>
        <item>
            <title>2012年度规划</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100xvy9.html</link>
            <description><![CDATA[<p>2012年就等着看地球大爆炸了<img SRC="http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6725EN00SIGG.gif" TYPE="face" /></P>
<p>大致安排一下今年的规划，要是这几年还没有什么研究成果，估计后面就越来越难啦，历史证明。今年的目标:</P>
<p>&nbsp;</P>
<p>1 把DNA搜索的东西搞定，争取推广到NCBI。</P>
<p>2 做几个基于twitter的app，然后赚点钱<img SRC="http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6714EN00SIGG.gif" TYPE="face" /></P>
<p>3 把基本的代码和算法水平提高，基础打牢固。</P>
<p>&nbsp;</P>
<p>工作计划主要根据工作安排。</P>
<p>&nbsp;</P>
<p>论文计划：</P>
<p>2月：把DNA分词的论文搞好投出去。只挖矿，不灌水，让别人来灌水，哈哈。</P>
<p>3-7月：开发相应的软件系统，进行推广。</P>
<p>&nbsp;</P>
<p>自己的app开发计划:</P>
<p>1 基于twitter的热点分析。</P>
<p>2 基于twitter的观点分析。</P>]]></description>
            <author>wangliang_f</author>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100xvy9.html#comment</comments>
            <pubDate>Mon, 30 Jan 2012 14:37:41 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100xvy9.html</guid>
        </item>
        <item>
            <title>2012-01-30</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100xvu5.html</link>
            <description><![CDATA[<p>论文规划</P>
<p>1 2月5日之前，提交到arxiv，整理程序，发mail，征求意见。</P>
<p>2 2月12日之前，把词的构建再搞一搞，按照意见改一改。</P>
<p>3 2月19日之前，把文章给投出去。</P>
<p>&nbsp;&nbsp;&nbsp;
知道算法，要能够迅速给出数据结构和实现的方式，这种技能还需要在实践中不断的提高，这是工作的基本技能，一定要熟悉。</P>]]></description>
            <author>wangliang_f</author>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100xvu5.html#comment</comments>
            <pubDate>Mon, 30 Jan 2012 14:32:16 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100xvu5.html</guid>
        </item>
        <item>
            <title>2012-01-28</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100xtfp.html</link>
            <description><![CDATA[<p>&nbsp;&nbsp;
下个周末之前，先把文章先写完整了，放到arxiv上，字长的先不要纠结，后面主要是词典的构造方面，把相关的数据结构，还有前向、后向稳定性之类的再总结一下，搞出一个稍微正式的词典出来，字长不用太长，12就行，防止内存溢出。</P>
<p>&nbsp;&nbsp; 现在开始挖坑不灌水，哈哈<img SRC="http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___7392ZH00SIGG.gif" TYPE="face" /></P>
<p>&nbsp;</P>]]></description>
            <author>wangliang_f</author>
            <category>dna搜索研究</category>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100xtfp.html#comment</comments>
            <pubDate>Sat, 28 Jan 2012 11:00:27 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100xtfp.html</guid>
        </item>
        <item>
            <title>2012.1.15</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100xgm7.html</link>
            <description><![CDATA[<p>论文计划</P>
<p>1 1月23号之前把文章给写好了，写成一般的格式，先搞到arxiv上，发给几个老大看看，接受一些反馈意见。</P>
<p>2 2月底之前把文章给投出去，这个应该能中个大的，哈哈。</P>]]></description>
            <author>wangliang_f</author>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100xgm7.html#comment</comments>
            <pubDate>Sun, 15 Jan 2012 22:59:43 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100xgm7.html</guid>
        </item>
        <item>
            <title>srilm 语言模型的内存问题</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100xfl1.html</link>
            <description><![CDATA[<p>&nbsp;&nbsp;&nbsp;
用srilm处理一个3G的语料，训练3元语言模型，32G内存根本就不够用，比CMU那个差远了，不过CMU的没人维护了<img SRC="http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6706EN00SIGG.gif" TYPE="face" />。</P>
<p>&nbsp;&nbsp; srilm
的faq里面给出了一个解决方案。就是把文件给分开了，然后分别算词频并merge起来，做成一个语言模型，具体见：<a HREF="http://www-speech.sri.com/projects/srilm/manpages/srilm-faq.7.html">http://www-speech.sri.com/projects/srilm/manpages/srilm-faq.7.html</A></P>
<p>&nbsp;</P>
<p>其基本方法：</P>
<p>1 把文件给分割开，放在一个目录下，然后生成一个文件名列表文件，如filelist ，一般使用按行分割的形式，split -l
100 test.txt out</P>
<p>2&nbsp; 使用
<strong>make-batch-counts</STRONG>分别统计各个文件中的词频<strong>，</STRONG>make-batch-counts
filelist 5 cat&nbsp;counts -order
3，其中filelist为需要统计的文件名列表，5为文件batch的个数，就是5个小文件分成一组进行处理。cat
lmcount&nbsp;表示输出到counts，后续则是提交给ngram-count的参数，需要什么写什么就行了。<br />
</P>
<p>
3&nbsp;使用<strong>merge-batch-counts</STRONG>合并统计文件<strong>，</STRONG>merge-batch-counts
counts，然后在counts下把文件都合成了一个文件*.gz</P>
<p>4 使用<strong>make-big-lm</STRONG>生成模型，make-big-lm -read
counts/??.gz -order 3 -lm test.lm,和ngram-count 的用法一致<br />
<br /></P>
<p>&nbsp;</P>
<p>&nbsp;</P>
<p>&nbsp;</P>]]></description>
            <author>wangliang_f</author>
            <category>dna搜索研究</category>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100xfl1.html#comment</comments>
            <pubDate>Sat, 14 Jan 2012 17:08:28 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100xfl1.html</guid>
        </item>
        <item>
            <title>ncbi 上面有三种fasta版本,其中的不同之处</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100wytt.html</link>
            <description><![CDATA[<pre>
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_01/
上面有三种fasta版本
hs_alt_Hs_Celera_chr1.fa.gz
hs_alt_HuRef_chr1.fa.gz
hs_ref_GRCh37.p2_chr1.fa.gz
应该下哪一个是人类一号染色体的基因序列？
</PRE>
<div>
<p><span>问题补充：</SPAN></P>
<pre>
说明文档里面的这么一段话：
Each file is named according to the abbreviation for the species,
whether the assembly is the reference assembly (_ref_) or an alternate
assembly (_alt_), the assembly name, and either the chromosome label
or the scaffold group (unlocalized, unplaced, or alts). 
又是什么意思呢？
</PRE>
<pre>
这三种版本的序列释放的时间不一样，另外，是由不同的组织公布的。
GRCh37.p2这个版本的是由Genome Reference Consortium与2010年7月公布的，
HuRef这个版本是由 J Craig Venter Institute 于2007年5月公布的，
Celera这个版本的是由Celera公司与2001年11月公布的，
这三个版本序列有差异，但是都是人类一号染色体的基因序列，都是可以参考的，GRCh37.p2这个版本的最新，也许最详细。

Each file is named according to the abbreviation for the species,
whether the assembly is the reference assembly (_ref_) or an alternate
assembly (_alt_), the assembly name, and either the chromosome label
or the scaffold group (unlocalized, unplaced, or alts). 每个文件的命名参考以下：物种的简写；_ref_代表参考组装序列或_alt_代表备选组装序列；组装序列名称；以及染色体序号或框架群(unlocalized, unplaced, or alts).
</PRE></DIV>]]></description>
            <author>wangliang_f</author>
            <category>dna搜索研究</category>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100wytt.html#comment</comments>
            <pubDate>Sun, 01 Jan 2012 21:27:18 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100wytt.html</guid>
        </item>
        <item>
            <title>ncbi中的基因组genome全序列下载</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100wne7.html</link>
            <description><![CDATA[<p>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
基因组的全系列下载最方便的就是通过NCIBI的ftp直接下载。</P>
<p>&nbsp;</P>
<p>ftp地址为：</P>
<pre STYLE="tab-stops: 91.6pt 137.4pt 183.2pt 229.0pt 274.8pt 320.6pt 366.4pt 412.2pt 458.0pt 503.8pt 549.6pt 595.4pt 641.2pt 687.0pt 732.8pt">

<font SIZE="3" FACE="宋体">基因组资源 </FONT><span LANG="EN-US" XML:LANG="EN-US"><a HREF="ftp://ftp.ncbi.nih.gov/genomes/"><font COLOR="#0000FF" SIZE="3">ftp://ftp.ncbi.nih.gov/genomes/</FONT></A></SPAN>
</PRE>
<pre STYLE="tab-stops: 91.6pt 137.4pt 183.2pt 229.0pt 274.8pt 320.6pt 366.4pt 412.2pt 458.0pt 503.8pt 549.6pt 595.4pt 641.2pt 687.0pt 732.8pt">

<span LANG="EN-US" XML:LANG="EN-US">

</SPAN>
</PRE>
<pre STYLE="tab-stops: 91.6pt 137.4pt 183.2pt 229.0pt 274.8pt 320.6pt 366.4pt 412.2pt 458.0pt 503.8pt 549.6pt 595.4pt 641.2pt 687.0pt 732.8pt">

<font SIZE="3" FACE="宋体">包括人、小鼠、果蝇、线虫等模式生物，以及微生物、植物等的基因组。</FONT>
</PRE>
<pre STYLE="tab-stops: 91.6pt 137.4pt 183.2pt 229.0pt 274.8pt 320.6pt 366.4pt 412.2pt 458.0pt 503.8pt 549.6pt 595.4pt 641.2pt 687.0pt 732.8pt">

<font SIZE="3" FACE="宋体"><br />
各种文件的说明，FTP站点 (genomes 目录) — 下载各种格式的完整的染色体序列数据，包括GenBank的flat file (*.gbk)，GenBank的概要文件(*.gbs)，FASTA核酸文件（*.fna），FASTA氨基酸文件（*.faa），蛋白表（*.ptt）<br />
<br />
<br />
<a NAME="OLE_LINK19"></A><a NAME="OLE_LINK18">&nbsp;</A><br />
<br />
<br />
模式生物基因组资源，包括人、果蝇、线虫、酵母、大鼠、小鼠、斑马鱼、拟南芥菜、水稻等模式生物。一些常见的模式生物的基因组ftp下载地址<br />
<br />
<br />
&nbsp;<br />
<br />
<br />
Arabidopsis(拟南芥)：<a HREF="ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/">ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/</A><br />
<br />
<br />
Fruit fly(果蝇) <a HREF="ftp://ftp.ncbi.nih.gov/genomes/Drosophila_pseudoobscura/">ftp://ftp.ncbi.nih.gov/genomes/Drosophila_pseudoobscura/</A><br />
<br />
<br />
Mouse(鼠)：<a HREF="ftp://ftp.ncbi.nih.gov/genomes/M_musculus/">ftp://ftp.ncbi.nih.gov/genomes/M_musculus/</A><br />
<br />
<br />
Human(人): <a HREF="ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/">ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/</A><br />
<br />
<br />
Caenorhabditis elegans(线虫)：<a HREF="ftp://ftp.ncbi.nih.gov/genomes/Caenorhabditis_elegans/">ftp://ftp.ncbi.nih.gov/genomes/Caenorhabditis_elegans/</A><br />
<br />
<br />
Zebrafish（斑马鱼）：<a HREF="ftp://ftp.ncbi.nih.gov/genomes/D_rerio/">ftp://ftp.ncbi.nih.gov/genomes/D_rerio/</A><br />
<br />
<br />
Rice(水稻)：<a HREF="ftp://ftp.ncbi.nih.gov/genomes/Oryza_sativa/">ftp://ftp.ncbi.nih.gov/genomes/Oryza_sativa/</A><br />
<br />
<br />
酵母 : <a HREF="ftp://ftp.ncbi.nih.gov/genomes/Schizosaccharomyces_pombe_OLD/">ftp://ftp.ncbi.nih.gov/genomes/Schizosaccharomyces_pombe_OLD/</A><br />
<br />
<br />
海胆：<a HREF="ftp://ftp.ncbi.nih.gov/genomes/Strongylocentrotus_purpuratus/">ftp://ftp.ncbi.nih.gov/genomes/Strongylocentrotus_purpuratus/</A><br />
<br />
<br />
Xenopus(爪蟾蜍): <a HREF="ftp://ftp.ncbi.nih.gov/genomes/Xenopus_Silurana_tropicalis/">ftp://ftp.ncbi.nih.gov/genomes/Xenopus_Silurana_tropicalis/</A><br />
<br /></FONT>
</PRE>]]></description>
            <author>wangliang_f</author>
            <category>dna搜索研究</category>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100wne7.html#comment</comments>
            <pubDate>Sat, 24 Dec 2011 15:29:55 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100wne7.html</guid>
        </item>
        <item>
            <title>2011-11-27</title>
            <link>http://blog.sina.com.cn/s/blog_3d37a5690100vhyz.html</link>
            <description><![CDATA[<p>1 先把时间线的那个搞定</P>
<p>2&nbsp;然后开始看n-gram的模型，顺便把dna搜索的也搞一下。</P>]]></description>
            <author>wangliang_f</author>
            <comments>http://blog.sina.com.cn/s/blog_3d37a5690100vhyz.html#comment</comments>
            <pubDate>Sun, 27 Nov 2011 20:59:13 +0800</pubDate>
            <guid>http://blog.sina.com.cn/s/blog_3d37a5690100vhyz.html</guid>
        </item>
    </channel>
</rss>

