LncRNA数据分析

分类: 生物信息学 |
一:关于lncRNA预测
1:LncRNA第一步去掉单外显子组成的转录本(除植物外)和长度小于200bp的转录本,关于植物LncRNA相关的文章建议可以参考文献:Deng
P, Liu S, Nie X, et al. Conservation analysis of long non-coding
RNAs in plants[J]. Science China Life Sciences, 2018, 61(2):
190-198.
2:使用CPC、PLEK、CNCI这些软件可以预测编码潜能并取交集
3:使用Pfam数据库是蛋白质结构域数据库使用Pfam_scan对转录本进行筛选,当然也可以直接使用hmmscan
--cpu 30 -E 0.001 --domtblout pfam.domtblout
凡是比对上的都要去掉。
4:以上结果取交集就是lncRNA的结果,此外http://gtrnadb.ucsc.edu是一个tRNA数据库也可以通过序列比对进一步去除tRNA序列
5:最后使用rfam_scan比对Rfam数据库,对非编码RNA进行注释去掉一些tRNA、rRNA、pre-microRNA、and
snoRNA.Rfam数据库如果要使用rfam_scan,就必须是ftp://ftp.ebi.ac.uk/pub/databases/Rfam/11.0/这个版本,剩下更新的版本序列的信息不对,另外rfam_scan下载ftp://ftp.ebi.ac.uk/pub/databases/Rfam/11.0/rfam_scan/rfam_scan.pl,另外运行该脚本的时候需要设置环境变量blast和infernal这个版本也不要太新(v1.0.2)
二、关于lncRNA与mRNA互作
常规分析分为两种:
cis作用靶基因预测:基本原理认为lncRNA的功能与其坐标临近的蛋白编码基因相关,于是将lncRNA临近位置的(上下游10k\100k)蛋白编码基因筛选出来作为其靶基因。后续再通过靶基因功能富集分析预测lncRNA的主要功能。
trans作用靶基因预测:基本原理认为lncRNA的功能不依赖于和编码基因的位置关系,而与其共表达的蛋白编码基因相关。可以通过样本间lncRNA与蛋白编码基因的表达量相关性分析或共表达分析方法来预测其靶基因。当样本量>=5时采用Pearson相关系数法分析样本间lncRNA与蛋白编码基因的相关性,取相关性较高的蛋白
编码基因进行功能富集分析预测lncRNA的主要功能;当样本数>=25时可采用WGCNA(Langfelder et al,
2008)将不同的组织、处理或者时间点间表达模式相似的基因聚类,得到不同的共表达模块,根据模块内已知的蛋白编码的基因功能进一步探索研究lncRNA的功能
此外目前通过类似自由能来预测lncRNA-mRNA之间的相互作用目前有三个软件可以使用:lncTar(http://www.cuilab.cn/lnctar)、ASSA(https://sourceforge.net/projects/assa/)
和RIblast(https://github.com/fukunagatsu/RIblast)ASSA发表的杂志影响因子较低,LncTar是2015年开发的要比RIblast晚,建议使用RIblast。此外在文章(Jiang
P, Hou Y, Fu W, et al. Characterization of lncRNAs involved in cold
acclimation of zebrafish ZF4 cells[J]. PloS one, 2018, 13(4):
e0195468.)使用的发表较早的工具RNAplex(Tafer H, Hofacker I L. RNAplex: a fast
tool for RNA–RNA interaction search[J]. Bioinformatics, 2008,
24(22):
2657-2663.)该工具使用也很简单。RNAplex现在是ViennaRNA预测RNA二级结构的经典软件的一部分。
后一篇:小RNA靶基因预测