加载中…
个人资料
邵先生
邵先生
  • 博客等级:
  • 博客积分:0
  • 博客访问:93,908
  • 关注人气:35
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
博文

第一步:格式转换

vcftols --vcf sample.vcf --plink --out sample

plink  --file sample --chr-set 20 --noweb --make-bed --out  sample

第二步:Q矩阵和画图

for i in 2 3 4 5 6 7 8 ;do python  structure.py -K $i --input sample --output  sample  --full --seed=100;done

1For i in 2 3 4 5 6 7 8;python distruct.py -K $i --input=sample  --title='' --output=$i.structure.svg;done

2http://omicsspeaks.com/strplot2/网页版,但是输入必须是csv格式

 

Gene-Based Association (GBA) analysis是基于全基因组关联分析的一种目前GWAS可以分为基于突变(SNP,CNV,SV),基因和通路三种。其中基于突变的主要是单核苷酸多态(SNP),目前,可以使用的软件比较多,比如TASSEL,GAPIT,PLINK等。从近几年发的文章来看,和人相关的GWAS分析一般都是使用PLINK,而动植物的除了TASSEL,GAPIT外,还有EMMAX,GEMMA,FastLMM等。支持gene-based关联分析研究的工具相对来说偏少,本人翻了google后发现有两个软件比较适用,分别是GCTA和VEGAS2,具体使用方法如下:

1、GCTA

参考资料:https://gcta.freeforums.net/board/2/gcta-user-manual

下载地址:https://cnsgenomics.com/software/gcta/#Download

第一步:数据格式转换

plink --allow-extra-chr --vcf test.vcf --make-bed --out test

plink --file test --make-bed  --out test --recode --allow-extra-chr

第二步:fastBAT

gcta64 --bfile test --maf 0.05 --fastBAT assoc.txt --fastBAT-gene-list gene_list.txt --out test --thread-num 10

其中:

(1)assoc.txt:

1:

(2014-02-12 17:27)
PPT网址:http://www.docin.com/p-490268348.html
RAD-seq技术简介:

      基于限制位点相关DNA (Restriction-site Associated DNA,RAD)的测序技术,即RAD-seq,是一种对酶切产生的基因组标签序列(Tags)进行高通量测序的新技术,该技术能够大幅降低基因组的复杂 度,可快速在全基因组范围内鉴定出高密度的SNP位点。
      对没有参考基因组的物种而言,RAD-seq技术不受已知基因组序列的限制,即可大规模筛查SNP位点;基因组的复杂度被大幅降低,从而降低了测序成本, 因而特别适合在群体水平进行研究; 以往的技术在获得SNP位点信息之后,需要通过设计相应引物,再利用基因分型技术对每个样本进行分型,然后RAD-seq技术获得SNP位点信息的同时, 也就获得了每个样本的基因型。对有参考基因组的物种而言,数据分析更加简便,并且能够有效开发新的SNP位点。另外,我们可以在测序前,通过对限制性内切 酶进行选择,灵活调整Tags的复杂度,适应不同的研究需要。

标签:

杂谈

一直没有太清楚samtools中这个参数的意义
譬如,处理一个始FASTQ文件包含28036024条reads的样本,Tophat比对结果accepted_hits.bam中reads记录

samtools flagstat accepted_hits.bam 
55176523 in total
QC failure
duplicates
55176523 mapped (100.00%)
55176523 paired in sequencing
27963041 read1
27213482 read2
48163900 properly paired (87.29%)
52066898 with itself and mate mapped
3109625 singletons (5.64%)
2389916 with mate mapped to different chr
557742 with mate mapped to different chr (mapQ>=5)


自己处理结果

samtools view accepted_hits.bam |cut -f 1|sort|uniq|wc -l
26452140   
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有