加载中…
  
博文
标签:

linux

字体

lang

分类: linux

可用locale命令查看系统字体,输出结果:

LANG=zh_CN.UTF-8

LC_CTYPE='C'

LC_NUMERIC='C'

LC_TIME='C'

LC_COLLATE='C'

LC_MONETARY='C'

LC_MESSAGES='C'

LC_PAPER='C'

LC_NAME='C'

LC_ADDRESS='C'

LC_TELEPHONE='C'

LC_MEASUREMENT='C'

LC_IDENTIFICATION='C'

LC_ALL=C


查看系统LANG默认值,可看该文件:

/etc/sysconfig/i18n​



​转载请注明出处:http://blog.sina.com.cn/adell898

标签:

somaticsv

manta

germlinesv

translocation

分类: 生物信息分析杂合

Manta由illumina开发,主要用于基因组germline和somatic SV分析。

Manta的结果文件格式是vcf 4.1,以下是vcf文件关键列的格式说明:

INFO列解释:

1)IMPRECISE:指示该SV是不准确的,无法获取准确的断点位置信息;单纯根据该SV的Reads支持来打分;

2)SVTYPE:SV类型;

3)SVLEN:REF与ALT间的长度差异;可以理解为SV长度;

3)END:该SV的终点位置,非BND类型的SV才有该信息;

4)CIPOS:POS周围置信区间;

5)CIEND:END周围置信区间;

6)CIGAR:INDEL类型SV的CICAR比对信息;可体现INDEL长度信息;

7)MATEID:mate breakend的ID;只出现在BND型SV中;

标签:

r语言

数据框合并

merge

cbind

rbind

分类: R语言

在执行数据分析前,数据预处理是必要的。数据集的合并是数据处理最常见的需求。

本篇涉及3个基本函数:

合并列:merge、cbind

合并行:rbind

接下来我们看看合并效果。

1)cbind

cbind可以记忆成column bind,即合并列;

cbind使用非常直观简单。当我们需要直接合并2个矩阵或数据框,不需要指定任何公共索引时,可以采用cbind函数​

标签:

qsub

qstat

集群投递任务

指定节点

状态查询

分类: linux

qsub -cwd -q sci.q -l vf=2g work.sh

这是我最常用的qsub投递任务的命令。​

1)-cwd:表示从当前目录开始执行作业;

2)-q:指定队列;

3)-l vf=2g :指定该任务运行内存;

4)-l p​=4:指定该任务线程数;

5)-l h=bioec.local:指定该任务运行节点;

6)work.sh:你的shell脚本。​


​qstat状态说明:

待补充...


​转载请注明出处:http://blog.sina.com.cn/adell898

标签:

manta

mantabnd

sv

分类: 生物信息分析杂合

manta地址:

https://github.com/Illumina/manta​

manta的结果输出文件为vcf格式。

以下是somaticSV.vcf的格式示例:

​#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  Sample1      Sample2

1       6814818 MantaDEL:781:0:0:0:3:0  AATTGGATGTGCAAATCTTCTTTGTAAGAAAAGGGAAAAAATCATTTTATTATGAGCAGTAAATCAAGAAATCAAGTTCTTACATCTATGAGTCCTTAGGGGCAGACTGAAAAATCTCACGGTATCTCACTT

CATGTCATGAAGCAAATGGTGGTGGGTTAAGTTCTAAATTTGCATGAAAAATTCAGGGCAGAAATAAATTAGGGTAAATTGAGGGATGTCAAAATCATATAAAAATTAAGATGAGGCCAGGCGCGGTGGCTCAC      A       .       PASS    END=6815

083;SVTYPE=DEL;SVLEN=-265;CIGAR=1M265D;SOMATIC;SOMATICSCORE=40  PR:SR   24,0:33,3       43,0:45,12

标签:

germline

somatic

分类: 生物信息分析杂合

1、somatic突变和germline突变

在家系分析中,somatic突变是指不可遗传的突变,germline是指可遗传突变;

在肿瘤中,somatic​突变是指仅肿瘤样本中存在的突变,germline是指在肿瘤样本和normal样本中均存在的突变;

2、somatic substitution 和 SNP​

在谈论SNP时,不涉及肿瘤样本和正常样本之分,而是通指样本出现的单碱基突变(单核苷酸多态性);​

而somatic substitution往往用于肿瘤分析中,指仅肿瘤样本中出现的单碱基突变;​

肿瘤中一般不用SNP,而用SNV来描述单碱基突变;

3、in-frame insertion and deletion​

指没有发生移码突变的insertion和deletion;​

4、gene amplification  (mutation or cancer)​

癌症中常提到gene amplification是引发癌症的原因之一,此处gene amplification其实是CNV检测的结果,gene amplification是指CNV中某基因copy number变高的情况;

【长期待补充...】​


转载请注明出处:http://blog.sina.com.cn/ade

标签:

生物信息

分类: 生物信息分析杂合
在高通量测序文章中,作者一般都会将原始数据上传到NCBI中,供后续研究者验证和参考。
而我们在文章中,可以获得的往往是SRA编号,如:
那么该怎么来批量下载SRA060929中的所有或某几个样本的数据呢?

Step1:打开NCBI的SRA页面(http://www.ncbi.nlm.nih.gov/sra/),并输入SRA060929,点击search;如下,
Step2:获得页面如下,勾选需要下载的样本左侧,按下图指示勾选网页右侧内容,最后点

以前一直混混沌沌,知道RNA-seq建库测序大概是打断、加接头、PCR、测序这么些步骤,至于具体每步如何操作,最终怎么测得的PE Reads;Reads跟原始模板的对应关系,都很模糊。这两天还算清闲,便简单整理整理。

RNA建库步骤1:

​总RNA ---> polyA富集mRNA ---> 打断 ---> 随机引物反转录成cDNA ---> 末端修复、加A、加接头(该过程是PCR过程)

此时产物为:

标签:

生物信息

ncbi

数据下载

分类: 生物信息分析杂合
当我们在Entrez系统检索出大量目的序列后,经常需要批量下载检索结果。如果只是下载目标的fasta序列,则非常容易,下载示意图如下:


如果需要批量下载cds序列,则需要两步操作;
step1:

step2:
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有