加载中…
个人资料
邵先生
邵先生
  • 博客等级:
  • 博客积分:0
  • 博客访问:60,419
  • 关注人气:35
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
分类
搜博主文章
访客
加载中…
评论
加载中…
留言
加载中…
博文
(2019-07-02 15:02)

1、背景 

超敏位点和基因表达有关,并且超敏位点反应了染色质的可及性。也就可以反推出“可及性”的染色质结构区域可能与基因表达调控相关。使用了超敏Tn5转座酶切割染色质的开放区域,并且加上接头(adapter)进行高通量测序。一共需要三种酶,能切割出单个核小体的MNase, 能识别超敏位点的DNase ATAC-Seq所需要的

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-03-28 15:41)

值得注意的是: All reads with a mapping quality < 70 were removed prior to calling.

其它策略包括:

  • Based on our analysis of replicates, SNVs with MuTect quality scores <6.95 were removed.
  • We removed those variants that overlapped with repetitive regions
  • Fisher’s exact test was used to identify variants exhibiting read direction bias
  • SNVs present at VAFs smaller than 0.1 or at loci covered by fewer than 10 reads were removed, unless they were also present and confirmed somatic in the Catalogue of Somatic Mutations in Cancer (COSMIC).
  • 删除那些在千人基因组计划的任意人群(AMR, ASN, AFR) 里面频率大于1%的变异位点。
  • We used the normal samples in our data set (normal pool) to control for both sequencing noise and germline variants, and removed any SNV observed in the normal pool (at a VAF of at least 0.1).

主要是区分recurrent和inact

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
邵先生有话说:在工作中难免领导会给你一堆数据,然后让你去分析,很多情况下不清楚是用什么仪器测序的,质量体系是多少,这时候就是抓心挠肺的时候,不用急,以下脚本帮你解决这个问题(这个脚本我也不清楚哪来的,如有雷同可以留言申明)

less $1 | head -n 1000 | awk '{if(NR%4==0) printf('%s',$0);}'| od -A n -t u1 -v | awk 'BEGIN{min=100;max=0;} \
{for(i=1;i<=NF;i++) {if($i>max) max=$i; if($i
{if(max<=126 && min<59) print 'Phred33'; \
else if(max>73 && min>=64) print 'Phred64'; \
else if(min>=59 && min<64 && max>73) print 'Solexa64'; \
else print 'Unknown score encoding'; \
print '( ' min ', ' max, ')';}'

eg:
输入:
sh  fq_qual_type.sh
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-03-18 16:56)
邵先生有话说xargs的功能可以用其它组合命令代替,但是如果使用xargs会使命令行更简洁,是计算更简单,如果你还没有看到这个命令的话,就一起来学习吧。

NAME
       xargs - build and execute command lines from standard input

SYNOPSIS
       xargs  [-0prtx]  [-E  eof-str] [-e[eof-str]] [--eof[=eof-str]] [--null]
       [-d delimiter] [--delimiter delimiter]  [-I  replace-str]  [-i[replace-
       str]]    [--replace[=replace-str]]   [-l[max-lines]]   [-L   max-lines]
       [--max-lines[=max-lines]] [-n max-args] [--max-args=max-args] [-s  max-
       chars]  [--max-chars=max-chars]  [-P max-procs] [--max-procs=max-procs]
   
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
转自:https://www.jb51.net/article/103875.htm

邵先生有话说:先说说我为什么要转这篇文章,因为在之前的工作中每个样本名字都是不一样的,所以不需要特殊处理,而今天遇到了每个不同目录下的样本都是一样的情况,这个处理就需要一些技巧,所以今天用了$(basename $(dirname file)),这样就取出了目录的名字,还有${}这个用法,这些在正常的工作中都有可能会遇到,所以提前预习做好工作很重要!!

--------------------------------------------------------------------------------------------------------------很多时候在使用Linux的shell时,我们都需要对文件名或目录名进行处理,通常的操作是由路径中提取出文件名,从路径中提取出目录名,提取文件后缀名等等。例如,从路径/dir1/dir2/file.txt中提取也文件名file.txt,提取出目录/dir1/dir2,提取出文件后缀txt等。

下面介绍两种常用的方法来进行相关的操作。

一、使用${}

1、${va

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-03-13 22:18)
邵先生有话说:一直用perl处理数据,今天心血来潮尝试用python写了一个质控程序,因为是第一次写,所以很多地方都没有优化,但总算能完整跑出结果来,mark!!!

##fq_qc.py
#! /usr/bin/python

import os
import re
import pickle
import sys, getopt
import numpy as np

Bin='/mnt1/bin/'

def filter(fqlist,wdir):
        fq_file = open(fqlist,'r')
        for line in fq_file:
                sample_name,fq=line.split()
                fq1,fq2=fq.split(';')
                base_name=os.path.basename(fq1)
                lib_name = re.sub(r'_1', '', bas
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-03-01 22:49)

0.引言

微卫星不稳定(MSI),是由于错配修复(MMR)基因突变导致错配修复蛋白表达缺失而引起的,自1993Altonen等首次在遗传性非息肉病性结直肠癌(HNPCC)中

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
支持向量机、随机森林、人工神经网络这三种算法在平时计算过程中会经常碰到,特别是用于各种项目中的建模,在网上找到了一个例子,觉得挺合适,详细请链接https://blog.csdn.net/csqazwsxedc/article/details/52230092

colnames(Data)<-c('class','id','R1','G1','B1','R2','G2','B2','R3','G3','B3')
head(Data)
##   class id        R1        G1        B1          R2          G2
## 1      1 0.5828229 0.5437737 0.2528287 0.014192030 0.016143875
## 2     1 10 0.6416595 0.5706572 0.2137280 0.015438840 0.011177918
## 3     1 11 0.6036844 0.5767189 0.2822538 0.008658572 0.007074807
## 4     1 12 0.5897057 0.5937430 0.2522425 0.007908293 0.005940868
## 5     1 13 0.5910962 0.5920930 0.2535949 0.0074484
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-11-22 15:51)

转至:https://www.jianshu.com/p/968c5cb911dd

常用的工具

PCA分析中常用的工具有GCTA中的PCA模块,老牌的软件EIGENSOFT中的smartpca,还有很多最近推出的R包都能够做PCA分析。然后分析完后,可视化的操作一般是使用R中ggplot等包去实现。

简单介绍一下GCTA和EIGENSOFT这两个工具:

GCTA
在群体遗传中,GCTA中的PCA模块是一款比较好的软件,不单可以做PCA的分析,其他LD,FST等一概都可以使用。工具官网http://cnsgenomics.com/software/gcta/#Overview 。这个软件能支持不同的平台,Windows,mac还有linux都有。

EIGENSOFT

这个工具是很经典老牌的工具,引用率已经过6000了,是非常可靠也得到了学术界认可的一款软件。工具官网:https://www.hsph.harvard.edu/alkes-price/software/, 也可以通过conda下载比较简便。这个工具的缺点就是它只支持linux系统

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
最近有个项目需要分析GWAS,但是前期预实验的时候发现,不管使用什么模型结果都不是很好,QQ-plot的点几乎都在直线上,好吧!介绍一下QQ-plot(文章来自:http://blog.csdn.net/likelet/article/details/7377664)

Q-Q plot 即Quantile-Quantile Plot。它在各类研究中经常用到,主要是直观的表示观测值与预测值之间的差异。

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有