加载中…
访客
加载中…
个人资料
fanyucai
fanyucai
  • 博客等级:
  • 博客积分:0
  • 博客访问:366,802
  • 关注人气:349
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
博文
置顶: (2019-01-10 13:24)
分类: 生物信息学
博客本人编写的一些代码分享,欢迎批评指正:
https://github.com/fanyucai1

交流QQ群号:721576409

申请需要本人通过,之前的群人员混杂,解散,重新部署。希望大家可以实现资料文献共享、共同进步。这个群号是新申请的,因此在申请加入的时候,请备注本人姓名以及单位以及方向,以方便备注和认证。

目前方向不在专注于科研方向,正在努力转型医学,望各位见谅。

很多人在博客中提问无法回复,望见谅。
阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
(2019-02-01 15:05)
分类: python学习
#########首先引入模块
import random
#########想多次生成同样的随机数请设置随机数比如
random.seed(4)
random.sample(range(100),10)
random.seed(4)
random.sample(range(100),10)
这样两次产生的随机数就会一样
##############################

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
分类: 文献推荐
Coudray A, Battenhouse A M, Bucher P, et al. Detection and benchmarking of somatic mutations in cancer genomes using RNA-seq data[J]. bioRxiv, 2018: 249219.

前期比对使用STAR-2 pass

另外还可以结合GATK官方流程:
https://github.com/gatk-workflows/gatk3-4-rnaseq-germline-snps-indels/blob/master/rna-germline-variant-calling.wdl
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

gene

fusion

hsa

分类: 医学相关
1:下载分析脚本:
https://sourceforge.net/projects/fusioncatcher/files/

2:下载数据库并建立数据库
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.aa
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ab
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ac
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ad
cat human_v90.tar.gz.* | tar xz
ln -s human_v90 current

4:下载必要的分析软件
* Python version 2.7.6 (>=2.6.0 and < 3.0 is fine)
* BioPython version 1.66 (>=1.50 is fine)
* Bowtie 64-bit version 1.1.2(官方文档要求的版本写错了)
* SeqTK version 1.2-r101c-dirty
* STAR version 2.5.2b
* BOWTIE2 version 2.2.9
* BBMAP version 37.28

5:使用说明:
https://github.com/ndaniel/fusioncatcher/blob/master/doc/manual.md

6:输出文件
summary_candidate_fusions.txt
final-list_candidate-fusion-genes.hg19.txt
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
分类: python学习

from multiprocessing import Process
string={}
string["a"]="samtools mpileup -q 20 -f h19.fa normal.bam >normal.mpileup"
string["b"]="samtools mpileup -q 20 -f hg19.fa tumor.bam >tumor.mpileup”

if __name__ == '__main__':
    p1=Process(target=shell_run,args=(string["a"],))
    p2=Process(target=shell_run,args=(string["b"],))
    p1.start()
    p2.start()
    p1.join()
    p2.join()
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-16 09:22)
分类: 生物信息学
1:首先说Grch38/hg38之间没有本质区别,b37/hg19也没有本质上区别,好像就是在染色体的编号上一个使用的是chr1,另一个使用的是数字1.

2:如果要实现hg19到hg38使用的工具liftOver,还有一个是映射文件,映射文件可以从http://hgdownload.cse.ucsc.edu/gbdb/hg19/liftOver/下载,还有我在call变异的时候GATK提供的是b37版本的vcf文件,我需要转换为hg19,需要用到映射文件b37tohg19.chain(http://bioinfo5pilm46.mit.edu/software/GATK/resources/)

3:简单的转换命令:
java -jar ~/Picard/picard.jar LiftoverVcf \
     I=af-only-gnomad.raw.sites.b37.vcf \
     O=af-only-gnomad.raw.sites.hg19.vcf \
     CHAIN=b37tohg19.chain \
     REJECT=rejected_variants.vcf \
     R=~/hg19_annotation/ucsc.hg19.fasta
4:一些相关的映射文件的下载地址:
http://crossmap.sourceforge.net/#
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-10 14:09)
分类: 医学相关
1:Microsatellite instability(微卫星不稳定性MSI)又称短串联重复序列(STR)是指基因组中小于10个核苷酸的简单重复序列,以2个核苷酸组成的重复序列最为丰富,主要位于基因组的非编码区。DNA错配修复(mutations of mismatch repair)是细胞复制后的一种修复机制,起维持DNA复制保真度,控制基因变异的作用。MMR系统由MMR基因编码的一系列的MMR蛋白组成。MMR基因的突变或者修饰(如甲基化)可以导致MMR蛋白的缺乏。

2:1997年美国国家癌症研究所工作组推荐通过检测基因组上的5个微卫星位点(BAT26, BAT25, D2S123, D5S346, D17S250)的不稳定性来判定微卫星不稳定性成都。MSI-H2个或2个以上位点的不稳定定为微卫星高度不稳定,1个位点不稳定定为微卫星低度不稳定MSI-L,无位点出现不稳定性MSS。如果是你自己设计的panel的话,位点不稳定性占你总panel数目的30%则认为MSI-H。

3:分析MSI可以使用MSIsensor
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
分类: 医学相关
1:FoundationOne CDx(F1CDx)可用于检测324个基因,与之相对应的搜素关键词:
comprehensive genomic profiling (CGP),也是面向于任何癌症类型的,目前私人验证的non-small cell lung cancer (NSCLC), melanoma, colorectal cancer, ovarian cancer or breast cancer 5种类型的癌症,可以服务于15个FDA认证的靶向治疗

参考链接:
参考文献:
halmers Z R, Connelly C F, Fabrizio D, et al. Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden[J]. Genome medicine, 2017, 9(1): 34.

2: MSK-IMPACTTM适用于任何肿瘤类型可以检测468个基因
数据共享数据库:http://www.cbioportal.org/study?id=msk_impact_2017,
其数据分析流程https://impact-pipeline.readthedocs.io/en/latest/index.html#
参考文献:
Zehir A, Benayed R, Shah R H, et al. Mutational landscape of metastatic cancer revealed from prospective clinical sequencing of 10,000 patients[J]. Nature medicine, 2017, 23(6): 703.

3:在比对去重完以后,建议进行局部重比对,以提高检测Indel的效率:
Mose L E, Wilkerson M D, Hayes D N, et al. ABRA: improved coding indel detection via assembly-based realignment[J]. Bioinformatics, 2014, 30(19): 2813-2815.
Homer N, Nelson S F. Improved variant discovery through local re-alignment of short-read next-generation sequencing data using SRMA[J]. Genome biology, 2010, 11(10): R99.

IMPACT试剂盒使用的软件是ABRA2(https://github.com/mozack/abra2)
F1CDx使用的是SRMA(https://github.com/nh13/SRMA)

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
分类: python学习
def dict2d(dict, key_a, key_b, val):
If key_a in dict:
dict[key_a].update({key_b: val})
else:
dict.update({key_a:{key_b: val}})
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-24 11:55)
分类: MAC
1:注册GitHub

2:https://desktop.github.com下载桌面版客户端

3:如果在push 的过程中遇到以下问题:
Authentication failed. You may not have permission to access the repository or the repository may have been archived. Open preferences and verify that you're signed in with an account that has permission to access this repository.

解决办法:
将Repository中设置的
git@github.com:fanyucai1/my_github.git
修改为:
https://github.com/fanyucai1/my_github.git

4:其他参考链接:
https://blog.csdn.net/baimafujinji/article/details/74533992
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
分类: 医学相关
检测cnv的范围:1KB~几M,中值100KB

杂合性缺失,位于一对同源染色体上的相同基因座位的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失,与之配对的染色体上仍然存在

1:在有的文献中指出cfDNA长度一般在167bp,ctDNA一般在145bp.在脑脊液中发现(ctDNA)取代在血浆中。本文对13个病人进行了平均深度(0.4X)的测序,测序每个样本数据量标准化到10Mreads。在13人中有5人发现了 somatic copy number alterations (SCNAs)基因组按照30K的大小分成没有overlap的bin区域,根据GC含量矫正比对reads数量,拷贝数变异分析使用R软件包CNAclinic(https://github.com/sdchandra/CNAclinic ),reads counts标准化是使用中值,以及log化
影响因子:10.293
Mouliere F, Mair R, Chandrananda D, et al. Detection of cellfree DNA fragmentation and copy number alterations in cerebrospinal fluid from glioma patients[J]. EMBO molecular medicine, 2018: e9323.


2:测序数据量为10M reads,在后续分析的时候也都标准化到这个范围。bin size选择是100K 数据R分析包是QDNAseq 病人中要比正常人包含更多cfDNA,因此对cfDNA也很重要。这篇文章尝试了多个binsize15 kb, 50 kb and 100 kb,最终选择了100KB
影响因子:10.199
Van Roy N, Van Der Linden M, Menten B, et al. Shallow whole genome sequencing on circulating cell-free DNA allows reliable non-invasive copy number profiling in neuroblastoma patients[J]. Clinical Cancer Research, 2017: clincanres. 0675.2017.

3:选择bin窗口为10kb,在选取log的对照时候,选取的是千人基因组中血液样本,样本编号NA18535
影响因子:2.766
Molparia B, Nichani E, Torkamani A. Assessment of circulating copy number variant detection for cancer screening[J]. PloS one, 2017, 12(7): e0180647.

4:使用数据0.01X(小于10万条reads),使用的测序平台是Torrent Suite version 5.0.2,copy数目变异分析使用的R软件分析包QDNASeq,对于CNV的定义设置为1.5–20 Mb的长度 log2(CopyNumberRatio) ≥ 0.2。在分析之前抽取数据使用seqtk
影响因子:0
Hovelson D H, Liu C J, Wang Y, et al. Rapid, ultra low coverage copy number profiling of cell-free DNA as a precision oncology screening strategy[J]. Oncotarget, 2017, 8(52): 89848.

5:利用NIPT技术可以发现约在~7MB大小的CNV,且在敏感性和特异性上都可以达到95%以上,pathogenic cancer的CNV的范围从1M,5M甚至到100MB。这篇文章选取的bin的大小为10KB。计算每个bin里的reads数目使用的是HTSeQ_Count,采用的数据是模拟的
影响因子: 2.766
Molparia B , Nichani E , Torkamani A . Assessment of circulating copy number variant detection for cancer screening[J]. Plos One, 2017, 12(7):e0180647.

6:本篇文章使用不同的测序文库(short\3KB\5KB)对标准品na12878进行不同深度的测序(1X、3X、5X),从结果上来看如果是针对正常样本或者肿瘤组织样本可以建议测序的时候选取大文库,结果显示低深度的各个文库都检测出了黄金标准的CNV
影响因子:5.751
Zhou B, Ho S S, Zhang X, et al. Whole-genome sequencing analysis of CNV using low-coverage and paired-end strategies is efficient and outperforms array-based CNV analysis[J]. Journal of medical genetics, 2018, 55(11): 735-743.

7:这是一篇综述性的文献,只是讲讲call CNV的方法,简单的汇总下对我有用的要点是,对于得到的CNV结果可以设置过滤1kb以下的结果,去除简单重复区域(如果与地重复区域含有70%的重复)这里call CNV只是针对单样本很多软件程序没有比较是源于有特殊分析需求比如样本需求
影响因子:8.855
Trost B, Walker S, Wang Z, et al. A comprehensive workflow for read depth-based identification of copy-number variation from whole-genome sequence data[J]. The American Journal of Human Genetics, 2018, 102(1): 142-155.

8:本篇文章收集1002 cfDNA样本,有3%的人发现了chromosomal imbalances。全基因组单端测序,每个样本平均测序深度9.6M reads
影响因子: 13.926
Lenaerts L, Vandenberghe P, Brison N, et al. Genomewide copy number alteration screening of circulating plasma DNA: potential for the detection of incipient tumors[J]. Annals of Oncology, 2018.

9:选取了344个样本其中200个病人样本包含多种类型癌症,进行全基因组测序,测序深度在(0.4x)也就是在最后分析时数据都标准到10M reads,其中病人比正常人在插入片段长度在90-150bp内存在有统计意义的差异,且在后续CNV发现过程中更具有敏感性和特异性。因此在分析变异时可以进行片段筛选。通过片段筛选然后结合CNA计算出t-MAD。
其他的特征提取是提取了P(20 to 150), P(100 to 150), P(160 to 180), P(180 to 220),and P(250 to 320); three features based on ratios of those proportions: P(20 to 150)/P(160 to 180), P(100 to 150)/P(163 to 169), and P(20 to 150)/P(180 to 220); and a further feature based on the amp- litude of the oscillations having 10-bp periodicity observed below 150 bp.这些特征,最终在选择预测算法中选择了随机森林和线性回归模型,特征选取上The best feature set for the LR model included t-MAD, 10-bp amplitude, P(160 to 180), P(180 to 220), and P(250 to 320)对于线性回归模型最好,随机森林的计算结果要好于线性回归的结果。
影响因子: 16.71
Mouliere F, Chandrananda D, Piskorz A M, et al. Enhanced detection of circulating tumor DNA by fragment size analysis[J]. Science translational medicine, 2018, 10(466): eaat4921.
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有