RNA-seq——三、使用Hisat2进行序列比对_hisat2与count如何选择人类基因组序列比对文件-程序员宅基地

技术标签: samtools  生信学习  hisat2  sam  bam  

为什么要比对:https://www.jianshu.com/p/681e02e7f9af

Jimmy老师主要演示了四种比对工具,分别为hisat2、subjunc、bowtie2、bwa。除了subjunc能够直接生成bam文件外,这些软件的用法都很相似。需要根据自己的需求来选择对应的软件。
这里以使用hisat2为例。

1. 下载对应的index

为什么要下载index:https://www.jianshu.com/p/681e02e7f9af

Hisat2官网下载:https://daehwankimlab.github.io/hisat2/download/
挂了梯子,使用edge浏览器,一小时左右下完。之后再导入服务器,再花一小时,淦!!!
在这里插入图片描述
解压文件

tar -zxvf hg19_genome.tar.gz
tar -zxvf mm10_genome.tar.gz

看一下里面都有什么
在这里插入图片描述

2. 序列比对

# 激活环境
conda activate rna

# -p 设置线程
# -x 参考基因组索引文件的前缀
# -U 单端测序文件
# -S 指定输出文件
hisat2 -p 10 -x ./hg19/genome -U ../sra/SRR957677.fastq.gz -S ../aligned/SRR957677.sam

在这里插入图片描述

一次比对多个文件的例子:https://www.jianshu.com/p/479c7b576e6f

# 双端测序数据
# -t 显示比对时间
# -1 双端测序结果的第一个文件
# -2 双端测序结果的第二个文件

# 人的比对
for ((i=56;i<=58;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/hg19/genome -1 /mnt/f/rna_seq/data/SRR35899${
    i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${
    i}.sra_2.fastq.gz -S SRR35899${
    i}.sam ;done
# 小鼠比对
$ for ((i=59;i<=62;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/mm10/genome -1 /mnt/f/rna_seq/data/SRR35899${
    i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${
    i}.sra_2.fastq.gz -S SRR35899${
    i}.sam; done

3. samtools:将sam文件转为bam文件

sort 默认按照染色体位置进行排序
-n 根据read名进行排序
-t 根据TAG进行排序
参考:https://www.jianshu.com/p/681e02e7f9af

详细参数解释见使用SAMtools将SAM文件转换为BAM文件、排序、建立索引

# -O 设置最终输出的文件格式,可以是bam,sam或者cram,默认为bam
# -@ 设置线程,加快运行速度
# -o 设置最终排序后的输出文件名
samtools sort -O bam -@ 2 -o SRR957677.bam SRR957677.sam

# 必须对bam文件进行默认情况下的排序后,才能进行index,否则会报错。
# 建立索引后将产生后缀为.bai的文件,用于快速的随机处理。
samtools index SRR957677.bam
samtools view SRR957677.bam | less -SN

# 给出BAM文件的比对结果
samtools flagstat -@ 2 SRR957677.bam

在这里插入图片描述
在这里插入图片描述
这里比对结果异常,应该是使用的数据为单端测序数据造成的。

一次转换多个文件的例子:https://www.jianshu.com/p/479c7b576e6f

# 首先将比对后的sam文件转换成bam文件
# 利用的是samtools的view选项,参数-S 输入sam文件;参数-b 指定输出的文件为bam;最后重定向写入bam文件
$ cd mnt/f/rna_seq/aligned
$ for ((i=56;i<=62;i++));do samtools view -S SRR35899${
    i}.sam -b > SRR35899${
    i}.bam;done
# 将所有的bam文件按默认的染色体位置进行排序
$ for ((i=56;i<=62;i++));do samtools sort SRR35899${
    i}.bam -o SRR35899${
    i}_sorted.bam;done
# 将所有的排序文件建立索引,索引文件.bai后缀
$ for ((i=56;i<=62;i++));do samtools index SRR35899${
    i}_sorted.bam;done

Jimmy老师的方法

ls *.sam | while read id; do (samtools sort -O bam -@ 5 -o $(basename ${
    id} ".sam").bam ${
    id}); done
ls *.bam | xargs -i samtools index {
    }

ls *.bam | while read id; do (samtools flagstat -@ 10 $id > $(basename ${
    id} ".bam").flagstat); done

4. 将bam文件载入IGV

将bam文件导入igv,在chr位置输入":10039",结果如图。看不懂…
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/narutodzx/article/details/126471422

智能推荐

python bar3d color_三维散点图colorbar matplotlib Python-程序员宅基地

文章浏览阅读1k次。我无法将颜色条添加到我的三维散点图中,它的颜色范围是根据bifurWidth的值在min和{}之间。我尝试过stackoverflow上显示的各种尝试,但都没有成功。任何帮助都将是非常感谢,因为我在这方面是一个重大的损失。在我最近的一次尝试是从下面的代码中散列出来的。在我的代码:from glob import globfrom pylab import *import numpy as npfr..._bar3d 好看的颜色

7.CSS-交集选择器、并集选择器、兄弟选择器_交集选择器和并集选择器使用方式-程序员宅基地

文章浏览阅读1.7k次。文章目录*交集选择器作用格式注意点并集选择器作用格式注意点相邻兄弟选择器作用格式注意点通用兄弟选择器作用格式注意点*交集选择器作用给所有选择器选中的标签中,相交的那部分设置属性。格式选择器1 选择器2{ 属性:值;}注意点1.选择器和选择器之间没有任何连接符号;2.选择器可以使用标签名称/id名称/class名称;3.仅了解。并集选择器作用给所有选择器选中的标签设置属性。格式选择器1,选择器2{属性:值;}注意点1.并集选择器必须使用,来连接;2.选择器可以使用_交集选择器和并集选择器使用方式

Windows CMD命令大全-程序员宅基地

文章浏览阅读79次。打开cmd快捷键 window键+RCMD命令锦集 1. gpedit.msc-----组策略  2. sndrec32-------录音机  3. Nslookup-------IP地址侦测器 ,是一个 监测网络中 DNS 服务器是否能正确实现域名解析的命令行工具。 它在 Windows NT/2000/XP 中均可使用 , 但在 Wi...

linux 安装dwm界面,ArchLinux dwm的安装和配置-程序员宅基地

文章浏览阅读1.4k次。dwm官网:https://dwm.suckless.org/dwm是一个简洁的平铺式窗口管理器配置简单,使用便捷,没有多少依赖,占用内存非常小总之dwm正合口味安装方法首先在官网下载dwm.tar.gz并解压得到这些东西:BUGS config.mk drw.h dwm.c dwm.png Makefile...我们主要来编辑config.h来进行一些配置和编辑config.mk来正确编译对co..._xxrudwm

Echarts 计算每份占比(等分)_echarts 等分-程序员宅基地

文章浏览阅读814次。option = { series: [ { type: "gauge", startAngle: 190, endAngle: -10, min: 0, max: 100, axisLine: { lineStyle: { width: 15, color: [ [0.3, "#91BB7E".._echarts 等分

Jemeter_jemeter官网下载-程序员宅基地

文章浏览阅读225次。https://www.cnblogs.com/monjeo/p/9330464.html_jemeter官网下载

随便推点

计算机图形图像处理在教学中的应用,计算机图形图像处理案例教学法运用-程序员宅基地

文章浏览阅读534次。摘要:笔者根据计算机图形图像处理课程与中职学生学习的特点,分析了目前中职学校计算图形图像处理课程教学中存在的问题,针对如何提高中职学生对计算机图形图像处理课程的学习兴趣和解决实际问题的能力,提出了案例教学法在该课程中的具体实施办法,并对其实践进行了进一步的讨论。关键词:计算机图形图像处理;案例教学;中职当今世界电子商务发展迅速,计算机平面设计这门技术在很多领域都得到广泛应用。《Photoshop图..._图像分类在教育中的应用

python资源文件嵌入exe_pyinstaller将资源文件打包进exe中-程序员宅基地

文章浏览阅读921次。在网上看了很多博客,终于找到了符合自己智商可理解的打包资源文件方法,现引用如下https://www.cnblogs.com/darcymei/p/9397173.htmlhttps://blog.csdn.net/sinat_27382047/article/details/81304065"""终于把资源文件加载进去了,就是当exe文件移植后,它运行的时候会产生一个临时文件夹,把资源文件存储到..._pyinstaller如何将_internal添加进exe

H3C模拟器配置vlan-程序员宅基地

文章浏览阅读3.3k次,点赞4次,收藏7次。Valn 11组网需求• 交换机GE_2上的VLAN 5 和VLAN 10 为Primary VLAN,其上层端口GigabitEthernet1/0/1需要允许VLAN 5 和VLAN 10 的报文携带VLAN Tag 通过。• 交换机GE_2 的下行端口GigabitEthernet1/0/2 允许Secondary VLAN 2 通过,GigabitEthernet1/0/3 允许Sec..._新华3模拟器vlan配置

img撑满全屏的方法(img非背景图)_img 铺满-程序员宅基地

文章浏览阅读4.7w次,点赞8次,收藏15次。我有一个模板,想按常规做一个div里面放置一个img图片,并且让图片铺满容器,自适应容器大小。HTML结构代码如下(在这个盒模型上,我已经放置了一些不重要的样式)。div style="height:270px;width:400px;border:2px black solid;"> a href="http://www.paipk.com">img src="..." alt="拍_img 铺满

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb0 in position 5: invalid start byte_ebpf bcc unicodedecodeerror: 'utf-8' codec can't d-程序员宅基地

文章浏览阅读947次。UnicodeDecodeError: 'gbk' codec can't decode byte 0xfa in position 4669: illegal multibyte sequenceUnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 5: invalid start bytewith open('进线汇总20201211.csv',encoding='utf8') as f: t = f._ebpf bcc unicodedecodeerror: 'utf-8' codec can't decode byte 0xb0 in positio

使用条件序列GAN改进NMT_improving neural machine translation with conditio-程序员宅基地

文章浏览阅读1.3k次。使用条件序列GAN改进NMT原文《Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets》课程作业,因为要导出pdf所以粘贴到CSDN了,34章是笔者翻译的部分。当一篇post吧,求别喷,有问题请留言我一定改,一定改。摘要本文提出了一种将GANs应用于NMT领域的方..._improving neural machine translation with conditional sequence generative ad