GTX.Zip

Warning

由于GTX.ZIP开发公司的软件开放政策发生了变化,其压缩功能有了比较大的限制,不再建议使用。

GTX.Zip(简称GTZ)是面向基因行业,结合行业数据特征,对基因测序数据进行定向优化,支持所有文件格式的高倍无损压缩系统。该系统具有业界最高无损压缩倍率和速度,能以1100MB/s的极致速度,将基因测序数据压缩至原大小的2%。该系统可对测序数据文件及文件目录进行高倍率快速压缩和打包,赋能用户对海量基因数据进行方便快捷的存储、传输、分发和提取。

项目地址:https://github.com/Genetalks/gtz

使用范围

主要用于压缩fq、bam文件

载入

module load GTZ/3.0.2

压缩fastq(添加参考基因组参数,获得高压缩率)

gtz  ERR194146_1.fastq --ref hg38.fa --cache-path /public/home/test/ -p 4

直接压缩fastq.gz(添加参考基因组参数,获得高压缩率)

gtz  ERR194146_1.fastq.gz --ref hg38.fa --cache-path /public/home/test/ -p 4

解压成fastq

gtz  -d ERR194146_1.fastq.gz.gtz  --cache-path /public/home/test/ -p 4

解压成fastq.gz

gtz  -d -z ERR194146_1.fastq.gz.gtz  --cache-path /public/home/test/ -p 4

压缩bam(测试功能,需要参考基因组)

gtz  ERR194146.bam --ref hg38.fa --cache-path /public/home/test/ -p 4

解压bam

gtz -d ERR194146.bam.gtz --cache-path /public/home/test/ -p 4

fq测试数据

耗时可以接受,压缩效果比较好

#人,相比gz压缩到1/2
-rw-rw-r-- 1 software software  53G Jan 19  2019 ERR194146_2.fastq.gz
-rw-rw-r-- 1 software software  52G Jan 19  2019 ERR194146_1.fastq.gz
-rw-r--r-- 1 software software  30G Oct 13 20:35 ERR194146_2.fastq.gtz
-rw-r--r-- 1 software software  29G Oct 13 22:27 ERR194146_1.fastq.gtz
#油菜,相比gz压缩到1/3
-rwxr-xr-x 1 software software  15G Oct 23 16:43 ZS11_1.fq.gz
-rwxr-xr-x 1 software software  17G Oct 23 16:43 ZS11_2.fq.gz
-rw-r--r-- 1 software software 4.5G Oct 25 00:10 ZS11_1.fq.gz.gtz
-rw-r--r-- 1 software software 6.0G Oct 25 00:16 ZS11_2.fq.gz.gtz
#玉米,相比gz压缩到1/3
-rwxr-xr-x 1 software software 9.4G Oct 23 16:32 Q114_1.trimed.fq.gz
-rwxr-xr-x 1 software software  11G Oct 23 16:33 Q114_2.trimed.fq.gz
-rw-r--r-- 1 software software 3.3G Oct 25 00:18 Q114_1.trimed.fq.gz.gtz
-rw-r--r-- 1 software software 4.0G Oct 25 00:21 Q114_2.trimed.fq.gz.gtz
#棉花,相比gz压缩到1/4
-rw-r--r-- 1 software software  35G Oct 23 16:36 L1_1.clean.fq.gz
-rw-r--r-- 1 software software  37G Oct 23 16:37 L1_2.clean.fq.gz
-rw-r--r-- 1 software software 7.7G Oct 25 01:07 L1_1.clean.fq.gz.gtz
-rw-r--r-- 1 software software 8.7G Oct 25 01:07 L1_2.clean.fq.gz.gtz
bam测试数据

压缩时间比较长,结果相比cram(压缩至bam的⅔)稍好,建议bam文件还是转cram,毕竟samtools等很多下游工具支持直接使用cram格式

棉花,相比bam压缩到1/2
-rw-rw-r-- 1 software software  23G Sep 16  2019 BYU21001.sorted.bam
-rw-rw-r-- 1 software software  10G Oct 26 17:16 BYU21001.sorted.bam.gtz

本文阅读量  次
本站总访问量  次