生信数据格式
fastq/fq¶
FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据整合在一起。目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。
以下为一个包含单个序列的FASTQ文件示例:
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
FASTQ文件中,一个序列通常由四行组成:
- 第1行主要储存序列测序时的坐标等信息,以@开头
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 @ 开始的标记符号 ST-E00126:128:HJFLHCCXX 测序仪唯一的设备名称 2 lane的编号 1101 tail的坐标 7405 在tail中的X坐标 1133 在tail中的Y坐标
- 第2行就是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。
- 第3行以“+”开始,可以储存一些附加信息,一般是空的。
- 第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。不同的版本对应的不同。
vcf¶
gvcf文件与vcf文件都是vcf文件,不同之处在于gvcf文件会记录更多的信息,这里更多的信息指的是未突变的位点的覆盖情况,从下面的图我们可以直观的看出两者的区别
可以看到,gvcf文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种gvcf文件记录非突变位点的时候,以块的形式来记录,而后一种gvcf文件则是对非突变和突变位点一视同仁,前一种方式是为了有效的压缩文件的行数和大小,对后续的分析没有影响,因此这里推荐使用前一种gvcf文件。
那么为什么要使用gvcf文件而不是vcf文件呢?这里主要的原因在于多个样本的vcf文件进行合并的时候,需要区分./.和0/0的情况,./.是未检出的基因型,而0/0是未突变的基因型,如果仅使用普通的vcf文件进行合并,那么就无法区分这两种情况,进而对合并结果产生偏差。实际上,我们也可以直接将gvcf文件和vcf文件使用bcftools merge进行merge,但是这样拿到的结果会有偏差,因为vcf文件没有未突变的位点的情况。
原文链接:https://blog.csdn.net/qq_35696312/article/details/88343352
sam/bam¶
sequence_string.sam
<QNAME> <FLAG> <RNAME> <POS> <MAPQ> <CIGAR> <MRNM> <MPOS> <ISIZE> <SEQ> <QUAL> [<TAG>:<VTYPE>:<VALUE> [...]]
Col | Field | Description | 备注 |
---|---|---|---|
1 | QNAME | Query template/pair NAME | 序列的名字,@那一行,排序以后read½这一个就删除了 |
2 | FLAG | bitwise FLAG | 描述align结果的flag,有一套算法,一般用不上 |
3 | RNAME | Reference sequence NAME | ref的名字,如染色体名称 |
4 | POS | 1-based leftmost POSition/coordinate of clipped sequence | 本reads在ref的起始位置,最左端 |
5 | MAPQ | MAPping Quality (Phred-scaled) | mapping的质量,ASCII-33 |
6 | CIAGR | extended CIGAR string | mapping的具体描述,M是完全匹配,其他好多字母各有含义 |
7 | RNEXT | Reference name of the mate/next read (‘=’ if same as RNAME) | 好像如果是成对匹配就是=,单端匹配或未匹配就是* |
8 | PNEXT | 1-based position of the mate/next read | 成对reads中另一条reads在ref的起始位置 |
9 | TLEN | Template Length (insert size) | 整条序列的长度,即两条reads起始位置的差再加上右侧reads的长度,若本条reads就是右侧reads则为负数 |
10 | SEQ | query SEQuence on the same strand as the reference | 本reads的序列 |
11 | QUAL | query QUALity (ASCII-33 gives the Phred base quality) | 本reads的质量,ASCII-33 |
12+ | OPT | variable OPTional fields in the format TAG:VTYPE:VALUE | 对mapping的各类描述 |
以下为举例
COL | VALUE |
---|---|
QNAME | SRR035022.2621862 |
FLAG | 163 |
RNAME | 16 |
POS | 59999 |
MAQ | 37 |
CIGAR | 22S54M |
MRNM | = |
MPOS | 60102 |
ISIZE | 179 |
SEQ | CCAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCGACCCTCACCCTCACCC |
QUAL | >AAA=>?AA>@@B@B?AABAB?AABAB?AAC@B?@AB@A?A>A@A?AAAAB??ABAB?79A?AAB;B?@?@<=8:8 |
TAG | XT:A:M |
TAG | XN:i:2 |
TAG | SM:i:37 |
TAG | AM:i:37 |
TAG | XM:i:0 |
TAG | XO:i:0 |
TAG | XG:i:0 |
TAG | RG:Z:SRR035022 |
TAG | NM:i:2 |
TAG | MD:Z:0N0N52 |
TAG | OQ:Z:CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCBCCCCCCBBCC@CCCCCCCCCCACCCCC;CCCBBC?CCCACCACA |
Flag¶
Bit | Description |
---|---|
1 0x1 | template having multiple segments in sequencing |
2 0x2 | each segment properly aligned according to the aligner |
4 0x4 | segment unmapped |
8 0x8 | next segment in the template unmapped |
16 0x10 | SEQ being reverse complemented |
32 0x20 | SEQ of the next segment in the template being reverse complemented |
64 0x40 | the first segment in the template |
128 0x80 | the last segment in the template |
256 0x100 | secondary alignment |
512 0x200 | not passing filters, such as platform/vendor quality controls |
1024 0x400 | PCR or optical duplicate |
2048 0x800 | supplementary alignment |
CIGAR¶
CIGAR字符串由一系列操作长度和操作类型组成。传统的CIGAR格式允许三种类型的操作:M表示匹配或不匹配,I表示插入,D表示删除。扩展的CIGAR格式进一步允许四种操作,如下表所示,用于描述剪切、填充和拼接。
Operation | Description |
---|---|
M | Alignment match (can be a sequence match or mismatch ) |
I | Insertion to the reference |
D | Deletion from the reference |
N | Skipped region from the reference |
S | Soft clipping (clipped sequences present in SEQ) |
H | Hard clipping (clipped sequences NOT present in SEQ) |
P | Padding (silent deletion from padded reference) |
= | Sequence match |
X | Sequence mismatch |
在CIGAR字符串中,每个操作由一个数字表示操作长度,后面跟着一个字符表示操作类型。例如,"10M"表示长度为10的匹配或不匹配操作。
扩展的CIGAR格式在传统的基础上添加了更多类型的操作,以提供更丰富的描述能力。其中,N操作表示参考序列中的跳过区域,S操作表示软剪切(序列在SEQ字段中存在的剪切部分),H操作表示硬剪切(序列在SEQ字段中不存在的剪切部分),P操作表示填充(对齐到填充参考时的无声删除),=操作表示序列匹配,X操作表示序列不匹配。
通过使用这些操作类型和对应的操作长度,CIGAR字符串可以有效地描述DNA或RNA序列比对结果中的各种操作。
可选字段¶
可选字段-预定义的标签:在 SAM可选字段说明 中有描述,其中描述了已有的标准TAG字段和自定义字段的细节。以X、Y、Z开头的TAG和包含小写字母的TAG保留为终端用户自定义使用,例如:
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在参考序列上模糊碱基的个数
XM:i 比对到参考基因组上的次数 (bowtie定义)
XO:i gap open的个数,针对于比对中的插入和缺失
XG:i gap 延伸的个数,针对于比对中的插入和缺失
NM:i 编辑距离。但是不包含头尾被剪切的序列。一般来说等于序列中error base的个数
YF:i 该reads被过滤掉的原因。可能为LN(错配数太多,待查证)、NS(read中包含N或者.)、SC(match bonus低于设定的阈值)、QC(failing quality control,待证)
YT:Z 值为UU表示不是pair中一部分(单末端?)、CP(是pair且可以完美匹配)、DP(是pair但不能很好的匹配)、UP(是pair但是无法比对到参考序列上)
MD:Z 比对上的错配碱基的字符串表示
bwa定义
XT:A 比对Type: Unique/Repeat/N/Mate-sw 如 XT:A:U 表示唯一比对
XM:i 比对中mismatch的数目
参考资料:
https://ming-lian.github.io/2019/02/07/Advanced-knowledge-of-SAM/
BED¶
BED文件(Browser Extensible Data)格式是UCSC Genome Browser的一个格式,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列,每行的数据格式要求一致。
必须有以下3列
chrom:即染色体号
chromStart:即feature在染色体上起始位置,在染色体上最左端坐标是0
chromEnd:即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0, chromEnd=100, 跨度为0-99
可选的9列
name:feature的名字,在基因组浏览器左边显示
score:在基因组浏览器中显示的灰度设定,值介于0-1000
strand:定义链的方向,+或者-
thickStart:起始位置(例如基因起始编码位置)
thickEnd:终止位置(例如基因终止编码位置)
itemRGB:是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为On, 这个RBG值将决定数据的显示的颜色
blockCount:BED行中的block数目,也就是外显子数目
blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应
本站总访问量 次