fanyucai_新浪博客

(2019-07-16 10:54)

分类：文献推荐

2012年1月美国医学遗传学与基因组学学会（ACMG，American College of Medical Genetics and Genomics）委员会正式批准成立临床外显子和基因组测序工作小组，此小组的任务就是当病人进行外显子或基因组测序时发现的偶发突变给出推荐性的指导。2013年，ACMG发表了一篇关于临床的官方声明，明确强调了偶发变异可能对揭示患者病情、临床测试以及报告结果的重要性。

Rehm H L, Bale S J, Bayrak-Toydemir P, et al. ACMG clinical laboratory standards for next-generation sequencing[J]. Genetics in medicine, 2013, 15(9): 733.

Green R C, Berg J S, Grody W W, et al. ACMG recommendations for reporting of incidental findings in clinical exome and genome sequencing[J]. Genetics in Medicine, 2013, 15(7): 565.

2016年，ACMG更新了附带发现（secondary findings）的基因列表，他们推荐实验室在临床外显子和基因组测序结果中报告这些基因的突变。附带发现是指这些基因的变异与检测的初始目的没有关系，但会导致严重的疾病，目前关于这些变异的知识可以指导临床实践。ACMG发布这些建议的原因是，临床外显子组和基因组测序检测开始激增，但却缺乏相应的标准。ACMG不断更新的建议可以帮助确定哪些附带发现可以反馈给患者，对成年人和儿童患者都适用。更新后的列表包括59个基因。

Kalia S S, Adelman K, Bale S J, et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2. 0): a policy statement of the American College of Medical Genetics and Genomics[J]. Genetics in medicine, 2017, 19(2): 249.

早在2015年，美国医学遗传学和基因组学（ACMG）以及分子病理学协会（AMP）曾联合出版了变异位点解读指南，基于28个判断标准（criteria）将变异位点分为了Pathogenic、Likely pathogenic、Uncertain significance、Likely benign和Benign五个级别。同样，在2017年，AMP、ASCO和CAP也联合制定了体细胞突变变异位点解读指南，基于变异位点的临床意义将其分为Tier I、Tier II、Tier III、Tier IV四个级别。时隔两年，由中国遗传学会遗传咨询分会领衔的专家团队共同编译了《ACMG遗传变异分类标准与指南》中文版（以下简称“中文版”），并获得美国ACMG的官方授权。

中文在线地址：http://acmg.cbgc.org.cn/doku.php?id=start

Richards S, Aziz N, Bale S, et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology[J]. Genetics in medicine, 2015, 17(5): 405.

Li M M, Datto M, Duncavage E J, et al. Standards and guidelines for the interpretation and reporting of sequence variants in cancer: a joint consensus recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists[J]. The Journal of molecular diagnostics, 2017, 19(1): 4-23.

同时对区分somatic mutations 和germline variants 也作出了相关解释。

Montgomery N D, Selitsky S R, Patel N M, et al. Identification of Germline Variants in Tumor Genomic Sequencing Analysis[J]. The Journal of molecular diagnostics: JMD, 2018, 20(1): 123-125.

2019年ACMG又提供了关于拷贝数变异检测的临床指导意见，在分类上同样。

Mikhail F M, Biegel J A, Cooley L D, et al. Technical laboratory standards for interpretation and reporting of acquired copy-number abnormalities and copy-neutral loss of heterozygosity in neoplastic disorders: a joint consensus recommendation from the American College of Medical Genetics and Genomics (ACMG) and the Cancer Genomics Consortium (CGC)[J]. Genetics in Medicine, 2019: 1.

此外生物信息过程可以参考的一些很棒的文献在文末也推荐给大家：

Sallevelt S C E H, De Koning B, Szklarczyk R, et al. A comprehensive strategy for exome-based preconception carrier screening[J]. Genetics in Medicine, 2017, 19(5): 583.

Strom S P. Current practices and guidelines for clinical next-generation sequencing oncology testing[J]. Cancer biology & medicine, 2016, 13(1): 3.

Sukhai M A, Misyura M, Thomas M, et al. Somatic Tumor Variant Filtration Strategies to Optimize Tumor-Only Molecular Profiling Using Targeted Next-Generation Sequencing Panels[J]. The Journal of Molecular Diagnostics, 2019, 21(2): 261-273.

阅读收藏

关于基因panel

(2019-06-05 15:33)

转载▼

分类：医学相关

1.在计算TMB的时候临床上gene panel大小多少合适？

由于TMB的概念起源于外显子测序，因此设计的panel与外显子的相关性至关重要。下图呈现了不同基因数目与外显子TMB相关性。下表展示了目前已经发表的一些panel的相关信息。最重要的一点目前研究表明gene panel至少覆盖0.8M的区域，所得TMB与外显子分析才具有较好的相关性。

2. 在call 变异过程中突变频率的阈值是多少？

一般的外显子的ariant allele frequency (VAF) cut-offs 设置在5-10%，在目前已公布的FDA批准的两个试剂盒中，FoundationOne CDx and Oncomine assays是5%，MSK-IMPACT是针对热点突变的阈值是2%和非热点突变阈值是5%。

3.基因panel的测序深度多少为最佳？

依据测序碱基服从二项式分布如上图是测序深度250X下突变频率5%下的检测真阳性和假阳性分布。X轴代表点是发现突变的reads数目，Y轴代表的是对应发现事件的可能性。因此如果设置一个突变为至少5条reads，且突变频率下限设置为5%，则测序深度至少为250X，这也是医学上的最低要求。对于测序panel来讲一般是至少是500X。对于肿瘤组织来讲，考虑到肿瘤纯度的问题，最低平均测序深度要求在1000X以上，而对于线粒体DNA上的突变平均测序深度至少5000X。

4.测试gene panel的是否合格的标准Limits of Detection（LOD）是多少？

至少测试20个已知样本对于minor allele fraction的发现率要占到总样本数的90-95%。

5.在生物信息分析方面call indel的最佳长度是多少？

21bp

6.遇到Tumor only样本除了考虑人群频率数据库外，还有没有其他办法区分germline和somatic突变？

可以使用SGZ分析软件https://github.com/jsunfmi/SGZ，该软件已经被FDA公布的FoundationOne CDx官方文档中使用(https://www.accessdata.fda.gov/cdrh_docs/pdf17/P170019B.pdf)。

7.过滤人群频率数据库会过滤到一些重要的位点怎么办？

在过滤去掉的位点中回收出现COSMIC里面的突变位点。

参见文献：

Büttner R, Longshore J W, López-Ríos F, et al. Implementing TMB measurement in clinical practice: considerations on assay requirements[J]. ESMO open, 2019, 4(1): e000442.

Sun J X, He Y, Sanford E, et al. A computational approach to distinguish somatic vs. germline origin of genomic alterations from deep sequencing of cancer specimens without a matched normal[J]. PLoS computational biology, 2018, 14(2): e1005965.

Garofalo A, Sholl L, Reardon B, et al. The impact of tumor profiling approaches and genomic data strategies for cancer precision medicine[J]. Genome medicine, 2016, 8(1): 79.

阅读收藏

Grch38/hg38与b37/hg19

(2019-01-16 09:22)

转载▼

分类：生物信息学

1:首先说Grch38/hg38之间没有本质区别，b37/hg19也没有本质上区别，好像就是在染色体的编号上一个使用的是chr1,另一个使用的是数字1.

2:如果要实现hg19到hg38使用的工具liftOver，还有一个是映射文件，映射文件可以从http://hgdownload.cse.ucsc.edu/gbdb/hg19/liftOver/下载，还有我在call变异的时候GATK提供的是b37版本的vcf文件，我需要转换为hg19,需要用到映射文件b37tohg19.chain（http://bioinfo5pilm46.mit.edu/software/GATK/resources/）

3:简单的转换命令：

java -jar ~/Picard/picard.jar LiftoverVcf \
     I=af-only-gnomad.raw.sites.b37.vcf \
     O=af-only-gnomad.raw.sites.hg19.vcf \
     CHAIN=b37tohg19.chain \
     REJECT=rejected_variants.vcf \
     R=~/hg19_annotation/ucsc.hg19.fasta

4:一些相关的映射文件的下载地址：

http://crossmap.sourceforge.net/#

5:一些可以下载的数据库链接

下载dbsnp ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/

下载clinvar ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar.vcf.gz

下载gnomAD http://hgdownload.cse.ucsc.edu/gbdb/hg19/gnomAD/vcf/

下载ExAChttp://hgdownload.cse.ucsc.edu/gbdb/hg19/ExAC/

构建h19的序列:ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg19/ucsc.hg19.fasta.gz

阅读收藏

MISO分析可变剪切

(2018-12-11 21:50)

转载▼

分类：生物信息学

1:关于软件安装python的版本选择建议是2.7.9

2:MISO分析提供两种方法一种是基于外显子的分析思路，另一种基于转录本定量的思路，文中建议外显子的分析思路，且文中提供了两种思路的注释文件，基于外显子注释方法的gff文件下载地址（http://genes.mit.edu/burgelab/miso/annotations/ver2/miso_annotations_hg19_v2.zip）

3:基于外显子的分析思路如下图其中在分析的结果中会展现（0，1）与（1，0）的reads数目,如果一个基因对应三个isoforms那么就有了（0，1，0），（0，0，1），（1，0，0）怎么样很2进制吧

4:下载完gff3需要建立index，因为依据外显子的分析策略目前可以分为以下几种,因此建index也会建成5种类型分布建立index：

Skipped exons (SE)
Alternative 3’/5’ splice sites (A3SS, A5SS)
Mutually exclusive exons (MXE)
Retained introns (RI）

5:因为默认是单端测序，现在也接受双末端测序输入，但是需要计算插入片段和方差数值，计算方法如文中红色部分

# Compute Psi values for control sample and knockdown sample

miso --run mm9/pickled/SE data/control.bam --output-dir SE/control/ --read-len 35 --paired-end 250 15 --use-cluster

miso --run mm9/pickled/SE data/knockdown.bam --output-dir SE/knockdown/ --read-len 35 --paired-end 250 15 --use-cluster

## 分析完的结果是按照染色体输出的比较多，因此出个总表的方法

summarize_miso --summarize-samples SE/control/ SE/control/

summarize_miso --summarize-samples SE/knockdown/ SE/knockdown/

## 寻找差异表达的isoforms,目前只能是两两样本比较，不能是多个，不知道是不是可以把多个样本合并成一个是否可行

compare_miso --compare-samples SE/control/ SE/knockdown/ SE/comparisons/

##寻找完差异就是对差异结果进行过滤了，过滤的命令

ilter_events --filter AML20_vs_ALL21.miso_bf --num-sum-inc-exc 10 --num-inc 1 --num-exc 1 --delta-psi 0.1 -

-bayes-factor 20 --output-dir filtered/

这过滤的参数可以参考：

--paired-end后面跟的参数是插入片段大小及其方差可以通过一下命令进行计算

exon_utils --get-const-exons Mus_musculus.NCBIM37.65.gff --min-exon-size 1000 --output-dir exons/

pe_utils --compute-insert-len sample.bam Mus_musculus.NCBIM37.65.min_1000.const_exons.gff --output-dir insert-dist/

参考文献

Iwai K, Yaguchi M, Nishimura K, et al. Anti‐tumor efficacy of a novel CLK inhibitor via targeting RNA splicing and MYC‐dependent vulnerability[J]. EMBO molecular medicine, 2018, 10(6): e8289.

Li T, Liu Q, Garza N, et al. Integrative analysis reveals functional and regulatory roles of H3K79me2 in mediating alternative splicing[J]. Genome medicine, 2018, 10(1): 30.

阅读收藏

16srRNA医学应用学习笔记

(2018-10-30 12:11)

转载▼

分类：生物信息学

https://rdp.cme.msu.edu/seqmatch/seqmatch_intro.jsp

https://github.com/rdpstaff/SequenceMatch

原始数据fastq格式使用cutadapt去掉接头以及引物序列，质量控制使用的阈值是20，长度过滤是指过滤到短于扩增长度75%的序列，将fastq转换成fasta,与从NCBI下载的序列使用blast+进行比对，比对参数选择：相似性选择为98% evalue阈值选择为1e-50

从CNBI上下载的序列需要使用RDP中的seqmatch对序列进行整理，参考序列中包含模糊分类注释的比如：‘marine bacterium’, ‘arsenic-oxidizing’这样的序列去掉，其中参数选择可以参考下面文献。

Watts G S, YouensClark K, Slepian M J, et al. 16S rRNA gene sequencing on a benchtop sequencer: accuracy for identification of clinically important bacteria[J]. Journal of applied microbiology, 2017, 123(6): 1584-1596.

2:PGM官方的16s rRNA

实验是经过两轮扩增：

1）试管1:扩增2、4、8可变区，扩增长度分别为：～250bp、～288bp、～295bp

2）试管2：扩增3，6-7，9可变区，扩增长度分别为：～215bp、～260bp、～209bp

3)引物设计可覆盖Greengenes数据库80%的数据

Chip type	Sample complexity low (10)	Medium (20)	High (>30)
314	4	2	1
316	20	10	2
318	40	20	4

预计每个样本测序数据量为350,000条reads

4)自身集成了微生物数据库MicroSEQ®，如果比对不上再去比对Greengenes数据库，主要是基于blast的比对方式

5）物种分类是基于Clinical and Laboratory Standards Institute (CLSI)标准，科（<97%）、属（>97%）、种（>99%）

6) Ion ReporterTM Software分析数据的时候在去掉primer的过程中允许错判的碱基数为3，另外对于有效reads的定义是指要一端又匹配的primer就可以，也可以设置的严格一点

3:从宏基因组数据中寻找病原微生物

Naccache S N, Federman S, Veeeraraghavan N, et al. A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples[J]. Genome research, 2014.

4:在文献Sabat A J, Zanten E, Akkerboom V, et al. Targeted next-generation sequencing of the 16S-23S rRNA region for culture-independent bacterial identification-increased discrimination of closely related species[J]. Scientific Reports, 2017, 7(1): 3434.种采用了基于16S-23S rRNA的临床样本种水平检测

(23S rRNA全长2900bp)扩增全长，片段回收200-1000bp的片段， Illumina MiSeq测序,使用SeqMan NGen software(DNASTAR)进行拼接，拼接使用kmer=31,最小相似性匹配是93%，整个扩增片段长度在4000多bp左右，本篇文章在选取23S rRNA引物的时候参考文献为：Hunt D E, Klepac-Ceraj V, Acinas S G, et al. Evaluation of 23S rRNA PCR primers for use in phylogenetic studies of bacterial diversity[J]. Applied and environmental microbiology, 2006, 72(3): 2221-2225.

5:MLST+

基于官方的Ion PGMTM System平台，分析软件为：Ion TorrentTM RidomTM SeqSphere+ Software，目前普遍使用的方法是扩增大概5-7个管家基因，在这个平台上集成了约1241个基因，在官方的测试文档中除了使用7个常规的管家基因（abcZ, adk, aroE, fumC, gdh, pdhC, pgm）还使用了13个额外的管家基因用于进化分析，此外还包括用于常规测试抗生素抗性基因（penA and rpoB ），血清和抗元分型使用的基因是（PorA, PorB, and FetA ），总共使用了32个目标基因。主要用于流行病中的菌株分析，研究其结构变异。组装软件使用的是 MIRA v3.9.4

Mellmann A, Harmsen D, Cummings C A, et al. Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104: H4 outbreak by rapid next generation sequencing technology[J]. PloS one, 2011, 6(7): e22751.

6:nanopore

使用blasr和last比对

Kilianski A, Haas J L, Corriveau E J, et al. Bacterial and viral identification and differentiation by amplicon sequencing on the MinION nanopore sequencer[J]. Gigascience, 2015, 4(1): 12.

7:CLSI 美国临床和实验室标准协会

Park G, Jin W Y, Jang S J, et al. Evaluation of four methods of assigning species and genus to medically important bacteria using 16S rRNA gene sequence analysis[J]. Microbiology and immunology, 2015, 59(5): 285-298.

在这篇文章中比较了 Clinical and Laboratory Standards Institute (CLSI), modified CLSI (mCLSI), phylogenetic analysis (PA) and closest match (CM)四种方法在物种分类的准确性，扩增测序使用的是16s rRNA全长。最终该文章推荐mCLSI

相似度	序列类型	相似度	结构名称	评述
>=99.0%	模式菌株	是	属名或种名
>=99.0%	模式菌株	否（与其他多个种的相似度差小于0.8%）	属名和多个种名	低鉴定度的鉴定
97.0-98.9%	模式菌株或有效命名的菌株	能与其他属区分	属	需注明“亲缘关系最近的菌种”
95.0-96.9%	模式菌株或有效命名的菌株			可能的新属新种，并注明“亲缘关系最近的菌属”
<95%	模式菌株或有效命名的菌株			可能的新属新种

8:Species-level microbiome analysis using EzBioCloud

兼容常规的16s rRNA分析软件QIIME/MOTHUR，而且该云端数据库也已经被应用到临床中（https://help.ezbiocloud.net/bacterial-identification-in-clinical-diagnostic-laboratories-using-16s-sequences/）

9: 借助nanopore宏基因组测序来判断骨科器械感染（例如义肢），其中样本中来自于人的污染约占测序数据量的80%-97%，该文章建立了一个分析管道，物种分类使用的是Centrifuge软件，该软件在建立index的时候使用的是来自NCBI Refseq数据库的细菌、病毒以及人的基因组。此外在测序数据中排出一些低复杂度的重复序列使用的软件是dustmasker

阅读收藏

千人基因组数据的重比对分析

(2018-09-30 16:42)

转载▼

标签：

1000genomes

cram

bam

grch38

gatk

分类：文献推荐

Zheng-Bradley X, Streeter I, Fairley S, et al. Alignment of 1000 Genomes Project reads to reference assembly GRCh38[J]. GigaScience, 2017, 6(7): 1-8.

文章分析流程图如下：

1:数据准备：

数据下载European Nucleotide Archive (ENA)使用的软件是ReseqTrack（https://github.com/EMBL-EBI-GCA/reseqtrack/blob/master/scripts/metadata/load_from_ena.pl）

2:比对

使用bwakit-0.7.12，在比对的时候是将测序数据分割成5M reads大小的文件，比对完成后进行排序合并使用的分析软件是 BioBamBam

3:BAM文件碱基质量修正

该步骤主要是减少由于测序仪器带来测序仪器的偏向性

4:此外在缺失碱基的周围往往存在很多假阳性的突变，需要Indel-Realigner这里使用了已知的Indel变异结果： (i) the 1000 Genomes Project phase 3 indels produced by Shapeit2 with co- ordinates lifted to GRCh38 by NCBI’s Remapper [17]; and (ii) the Mills and Devine’s indel set [18], lifted to GRCh38 by CrossMap [19] and provided by Alison Meynert from IGMM in Edinburgh (personal communication).

5:最后是去除测序PCR冗余也是使用的BioBamBam软件

6:压缩BAM到CRAM，使用的软件是cramtools 3.0

7:分析比对质量和覆盖度使用的是bamUtil（https://genome.sph.umich.edu/wiki/BamUtil）

8:对参考序列的处理：下载GRCh38，运行脚本seq_cache_populate.pl生成缓存，该脚本属于samtools工具生成带有MD5值的目录树，还需要设置HTSlib与CRAMTools 所需要环境变量

9:从CRAM到bam

阅读收藏

生物信息分析流程图

(2018-09-17 17:09)

转载▼

标签：

isoseq

denovo

kmer

survy

resequencing

分类：生物信息学

重测序流程图

宏基因组数据分析流程图

基因组survy流程图

动植物基因组denvo分析流程图

三代全长转录组分析流程图

基因组结构注释流程图

小基因组denovo拼接

宏病毒组分析流程

非编码RNA

微生物基因组

可变剪切

阅读收藏

LncRNA数据分析

(2018-09-05 21:37)

转载▼

分类：生物信息学

lncRNA为一类长度>200bp的长链非编码RNA，根据与编码序列的位置关系可分为intergenic lncRNA(简称lincRNA)，intronic lncRNA, anti-sense lncRNA，sense lncRNA，bidirectional lncRNA等类型。其中lincRNA所占比例最高.

一：关于lncRNA预测

1：LncRNA第一步去掉单外显子组成的转录本(除植物外)和长度小于200bp的转录本，关于植物LncRNA相关的文章建议可以参考文献：Deng P, Liu S, Nie X, et al. Conservation analysis of long non-coding RNAs in plants[J]. Science China Life Sciences, 2018, 61(2): 190-198.

2：使用CPC、PLEK、CNCI这些软件可以预测编码潜能并取交集

3：使用Pfam数据库是蛋白质结构域数据库使用Pfam_scan对转录本进行筛选,当然也可以直接使用hmmscan --cpu 30 -E 0.001 --domtblout pfam.domtblout 凡是比对上的都要去掉。

4:以上结果取交集就是lncRNA的结果，此外http://gtrnadb.ucsc.edu是一个tRNA数据库也可以通过序列比对进一步去除tRNA序列

5：最后使用rfam_scan比对Rfam数据库，对非编码RNA进行注释去掉一些tRNA、rRNA、pre-microRNA、and snoRNA.Rfam数据库如果要使用rfam_scan,就必须是ftp://ftp.ebi.ac.uk/pub/databases/Rfam/11.0/这个版本，剩下更新的版本序列的信息不对，另外rfam_scan下载ftp://ftp.ebi.ac.uk/pub/databases/Rfam/11.0/rfam_scan/rfam_scan.pl，另外运行该脚本的时候需要设置环境变量blast和infernal这个版本也不要太新（v1.0.2）

二、关于lncRNA与mRNA互作

常规分析分为两种：

cis作用靶基因预测：基本原理认为lncRNA的功能与其坐标临近的蛋白编码基因相关，于是将lncRNA临近位置的(上下游10k\100k)蛋白编码基因筛选出来作为其靶基因。后续再通过靶基因功能富集分析预测lncRNA的主要功能。

trans作用靶基因预测：基本原理认为lncRNA的功能不依赖于和编码基因的位置关系，而与其共表达的蛋白编码基因相关。可以通过样本间lncRNA与蛋白编码基因的表达量相关性分析或共表达分析方法来预测其靶基因。当样本量>=5时采用Pearson相关系数法分析样本间lncRNA与蛋白编码基因的相关性，取相关性较高的蛋白编码基因进行功能富集分析预测lncRNA的主要功能;当样本数>=25时可采用WGCNA(Langfelder et al, 2008)将不同的组织、处理或者时间点间表达模式相似的基因聚类，得到不同的共表达模块，根据模块内已知的蛋白编码的基因功能进一步探索研究lncRNA的功能

此外目前通过类似自由能来预测lncRNA-mRNA之间的相互作用目前有三个软件可以使用：lncTar(http://www.cuilab.cn/lnctar)、ASSA(https://sourceforge.net/projects/assa/) 和RIblast(https://github.com/fukunagatsu/RIblast)ASSA发表的杂志影响因子较低，LncTar是2015年开发的要比RIblast晚，建议使用RIblast。此外在文章（Jiang P, Hou Y, Fu W, et al. Characterization of lncRNAs involved in cold acclimation of zebrafish ZF4 cells[J]. PloS one, 2018, 13(4): e0195468.）使用的发表较早的工具RNAplex（Tafer H, Hofacker I L. RNAplex: a fast tool for RNA–RNA interaction search[J]. Bioinformatics, 2008, 24(22): 2657-2663.）该工具使用也很简单。RNAplex现在是ViennaRNA预测RNA二级结构的经典软件的一部分。

阅读收藏

下载kegg代谢通路图以及对应的html文件

(2018-09-04 11:10)

转载▼

标签：

python

kegg

ko

png

html

分类：生物信息学

# coding:utf-8

# Email:fanyucai1@126.com

# 2018.3.15

import subprocess

import os

import sys

if len(sys.argv) !=3:

sys.stderr.write("\nThis script is used to download KEGG pathway maps.\n")

sys.stderr.write("usage:python %s hsa hsa/\n\n" %(sys.argv[0]))

sys.exit(1)

abb=sys.argv[1]

outdir=sys.argv[2]

pathway = "http://rest.kegg.jp/list/pathway/"

pathway+=abb

subprocess.check_call('mkdir -p %s' % (outdir), shell=True)

os.chdir(outdir)

def ko(pathway,abb):

subprocess.check_call('curl -s %s -o ID.list' % (pathway), shell=True)

subprocess.check_call('awk \'{print $1}\' ID.list|awk -F":" \'{print $2}\'|sort -u >abb_ID.list && mv abb_ID.list ID.list',shell=True)

file = open("ID.list", "r")

for line in file:

line = line.strip()

if not os.path.exists('%s.png' %(line)):

subprocess.check_call('curl http://rest.kegg.jp/get/%s/image -o %s.png' % (line, line),shell=True)

if not os.path.exists('%s.html' %(line)):

subprocess.check_call('curl https://www.kegg.jp/kegg-bin/show_pathway?%s -o %s.html' % (line,line), shell=True)

file.close()

if __name__ =="__main__":

ko(pathway, abb)

阅读收藏

perl模块GD安装

(2018-08-08 15:02)

转载▼

标签：

gd、perl

分类： Perl

1:安装几个必须的库，其中最主要的是libGD,尤其是在使用cpan安装的时候会遇到No package 'gdlib' found

wget http://ftp.twaren.net/Unix/NonGNU//freetype/freetype-2.6.3.tar.bz2

./configure --prefix=/lustre/Work/fanyucai/software/freetype/freetype-v2.6.3 --enable-shared && && make -j20 && make install

#zlib

wget http://ufpr.dl.sourceforge.net/project/libpng/zlib/1.2.8/zlib-1.2.8.tar.gz

./configure --prefix=/lustre/Work/fanyucai/software/zlib/zlib-v1.2.8 && make -j20 && make install

#libpng

wget https://sourceforge.net/projects/libpng/files/libpng16/1.6.34/libpng-1.6.34.tar.gz/

./configure --prefix=/lustre/Work/fanyucai/software/libpng/libpng-v1.6.34 --enable-shared && make -j20 && make install

#jpeg

wget http://www.ijg.org/files/jpegsrc.v9b.tar.gz

./configure --prefix=/lustre/Work/fanyucai/software/jpeg/jpeg-v9b --enable-shared && make -j20 && make install

#libgd

wget https://github.com/libgd/libgd/releases/download/gd-2.2.1/libgd-2.2.1.tar.gz

./configure --prefix=/lustre/Work/fanyucai/software/libgd/libgd-v2.2.1 --enable-shared -with-jpeg=/your/local/path/jpeg --with-freetype=/your/local/path/freetype --with-png=/your/local/path/png --with-zlib=/your/local/path/zlib && make -j20 && make install

安装成功后命令行加载环境变量

export PATH=/lustre/Work/fanyucai/software/libgd/libgd-v2.2.1/bin/:$PATH

export LD_LIBRARY_PATH=/lustre/Work/fanyucai/software/libgd/libgd-v2.2.1/lib:$LD_LIBRARY_PATH

进入cpan安装GD,别忘记使用CPAN之前要添加镜像

阅读收藏