跳转至

生信数据格式

常用生物信息ID

生信中各种ID转换

biomaRt包实现不同物种之间同源基因转换

生信中常见的数据文件格式

fastq/fq

FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据整合在一起。目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。

以下为一个包含单个序列的FASTQ文件示例:

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,

FASTQ文件中,一个序列通常由四行组成:

  • 第1行主要储存序列测序时的坐标等信息,以@开头
    @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
    
    @   开始的标记符号         
    ST-E00126:128:HJFLHCCXX 测序仪唯一的设备名称
    2   lane的编号             
    1101    tail的坐标
    7405    在tail中的X坐标
    1133    在tail中的Y坐标
    
  • 第2行就是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。
  • 第3行以“+”开始,可以储存一些附加信息,一般是空的。
  • 第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。不同的版本对应的不同。

vcf

gvcf文件与vcf文件都是vcf文件,不同之处在于gvcf文件会记录更多的信息,这里更多的信息指的是未突变的位点的覆盖情况,从下面的图我们可以直观的看出两者的区别

可以看到,gvcf文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种gvcf文件记录非突变位点的时候,以块的形式来记录,而后一种gvcf文件则是对非突变和突变位点一视同仁,前一种方式是为了有效的压缩文件的行数和大小,对后续的分析没有影响,因此这里推荐使用前一种gvcf文件。

那么为什么要使用gvcf文件而不是vcf文件呢?这里主要的原因在于多个样本的vcf文件进行合并的时候,需要区分./.和0/0的情况,./.是未检出的基因型,而0/0是未突变的基因型,如果仅使用普通的vcf文件进行合并,那么就无法区分这两种情况,进而对合并结果产生偏差。实际上,我们也可以直接将gvcf文件和vcf文件使用bcftools merge进行merge,但是这样拿到的结果会有偏差,因为vcf文件没有未突变的位点的情况。

原文链接:https://blog.csdn.net/qq_35696312/article/details/88343352

sam/bam

sequence_string.sam

<QNAME> <FLAG> <RNAME> <POS> <MAPQ> <CIGAR> <MRNM> <MPOS> <ISIZE> <SEQ> <QUAL> [<TAG>:<VTYPE>:<VALUE> [...]]

ColFieldDescription备注
1QNAMEQuery template/pair NAME序列的名字,@那一行,排序以后read½这一个就删除了
2FLAGbitwise FLAG描述align结果的flag,有一套算法,一般用不上
3RNAMEReference sequence NAMEref的名字,如染色体名称
4POS1-based leftmost POSition/coordinate of clipped sequence本reads在ref的起始位置,最左端
5MAPQMAPping Quality (Phred-scaled)mapping的质量,ASCII-33
6CIAGRextended CIGAR stringmapping的具体描述,M是完全匹配,其他好多字母各有含义
7RNEXTReference name of the mate/next read (‘=’ if same as RNAME)好像如果是成对匹配就是=,单端匹配或未匹配就是*
8PNEXT1-based position of the mate/next read成对reads中另一条reads在ref的起始位置
9TLENTemplate Length (insert size)整条序列的长度,即两条reads起始位置的差再加上右侧reads的长度,若本条reads就是右侧reads则为负数
10SEQquery SEQuence on the same strand as the reference本reads的序列
11QUALquery QUALity (ASCII-33 gives the Phred base quality)本reads的质量,ASCII-33
12+OPTvariable OPTional fields in the format TAG:VTYPE:VALUE对mapping的各类描述

以下为举例

COLVALUE
QNAMESRR035022.2621862
FLAG163
RNAME16
POS59999
MAQ37
CIGAR22S54M
MRNM=
MPOS60102
ISIZE179
SEQCCAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCGACCCTCACCCTCACCC
QUAL>AAA=>?AA>@@B@B?AABAB?AABAB?AAC@B?@AB@A?A>A@A?AAAAB??ABAB?79A?AAB;B?@?@<=8:8
TAGXT:A:M
TAGXN:i:2
TAGSM:i:37
TAGAM:i:37
TAGXM:i:0
TAGXO:i:0
TAGXG:i:0
TAGRG:Z:SRR035022
TAGNM:i:2
TAGMD:Z:0N0N52
TAGOQ:Z:CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCBCCCCCCBBCC@CCCCCCCCCCACCCCC;CCCBBC?CCCACCACA

Flag

BitDescription
1 0x1template having multiple segments in sequencing
2 0x2each segment properly aligned according to the aligner
4 0x4segment unmapped
8 0x8next segment in the template unmapped
16 0x10SEQ being reverse complemented
32 0x20SEQ of the next segment in the template being reverse complemented
64 0x40the first segment in the template
128 0x80the last segment in the template
256 0x100secondary alignment
512 0x200not passing filters, such as platform/vendor quality controls
1024 0x400PCR or optical duplicate
2048 0x800supplementary alignment

CIGAR

CIGAR字符串由一系列操作长度和操作类型组成。传统的CIGAR格式允许三种类型的操作:M表示匹配或不匹配,I表示插入,D表示删除。扩展的CIGAR格式进一步允许四种操作,如下表所示,用于描述剪切、填充和拼接。

OperationDescription
MAlignment match (can be a sequence match or mismatch )
IInsertion to the reference
DDeletion from the reference
NSkipped region from the reference
SSoft clipping (clipped sequences present in SEQ)
HHard clipping (clipped sequences NOT present in SEQ)
PPadding (silent deletion from padded reference)
=Sequence match
XSequence mismatch

在CIGAR字符串中,每个操作由一个数字表示操作长度,后面跟着一个字符表示操作类型。例如,"10M"表示长度为10的匹配或不匹配操作。

扩展的CIGAR格式在传统的基础上添加了更多类型的操作,以提供更丰富的描述能力。其中,N操作表示参考序列中的跳过区域,S操作表示软剪切(序列在SEQ字段中存在的剪切部分),H操作表示硬剪切(序列在SEQ字段中不存在的剪切部分),P操作表示填充(对齐到填充参考时的无声删除),=操作表示序列匹配,X操作表示序列不匹配。

通过使用这些操作类型和对应的操作长度,CIGAR字符串可以有效地描述DNA或RNA序列比对结果中的各种操作。

可选字段

可选字段-预定义的标签:在 SAM可选字段说明 中有描述,其中描述了已有的标准TAG字段和自定义字段的细节。以X、Y、Z开头的TAG和包含小写字母的TAG保留为终端用户自定义使用,例如:

  • AS:i 匹配的得分

  • XS:i 第二好的匹配的得分

  • YS:i mate 序列匹配的得分

  • XN:i 在参考序列上模糊碱基的个数

  • XM:i 比对到参考基因组上的次数 (bowtie定义)

  • XO:i gap open的个数,针对于比对中的插入和缺失

  • XG:i gap 延伸的个数,针对于比对中的插入和缺失

  • NM:i 编辑距离。但是不包含头尾被剪切的序列。一般来说等于序列中error base的个数

  • YF:i 该reads被过滤掉的原因。可能为LN(错配数太多,待查证)、NS(read中包含N或者.)、SC(match bonus低于设定的阈值)、QC(failing quality control,待证)

  • YT:Z 值为UU表示不是pair中一部分(单末端?)、CP(是pair且可以完美匹配)、DP(是pair但不能很好的匹配)、UP(是pair但是无法比对到参考序列上)

  • MD:Z 比对上的错配碱基的字符串表示

  • bwa定义

    • XT:A 比对Type: Unique/Repeat/N/Mate-sw 如 XT:A:U 表示唯一比对

    • XM:i 比对中mismatch的数目

参考资料:

生物信息学常见文件格式

https://ming-lian.github.io/2019/02/07/Advanced-knowledge-of-SAM/

BED

BED文件(Browser Extensible Data)格式是UCSC Genome Browser的一个格式,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列,每行的数据格式要求一致。

必须有以下3列

  • chrom:即染色体号

  • chromStart:即feature在染色体上起始位置,在染色体上最左端坐标是0

  • chromEnd:即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0, chromEnd=100, 跨度为0-99

可选的9列

  • name:feature的名字,在基因组浏览器左边显示

  • score:在基因组浏览器中显示的灰度设定,值介于0-1000

  • strand:定义链的方向,+或者-

  • thickStart:起始位置(例如基因起始编码位置)

  • thickEnd:终止位置(例如基因终止编码位置)

  • itemRGB:是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为On, 这个RBG值将决定数据的显示的颜色

  • blockCount:BED行中的block数目,也就是外显子数目

  • blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目

  • blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应

本文阅读量  次
本站总访问量  次