数据使用规范

  • 常用比对软件及fq文件处理工具 seqkit 等均已支持直接使用fq.gz压缩文件,原始fq.gz文件如无必要,不要解压;

  • 下载完sra文件之后,直接转成fq.gz文件,然后删掉sra文件,如无必要切勿直接转成fq文件;

  • 比对过程中不要直接输出sam文件,可以利用管道组合其他工具(samtools等)或软件自带参数输出 bam 文件。相比sam,bam可节省约60%的存储空间。部分软件(gatk、sentieon等)后续流程支持cram,因此bam可以继续转成 cram 格式,可节省约30%-50%的存储空间;相应的文档可参考 短序列比对输出bam

  • 文章发表后原始fq已经上传ncbi等数据,如无必要可直接将原始数据删除,后面需要使用时下载比较方便;

  • 需要长期存放的群体数据(fq/bam/vcf),可以使用 genozip 压缩,相比gzip,可以节省至少50%以上的存储空间,支持 fq/bam/vcf 等多种文件的压缩及多种压缩模式,使用参考 genozip ;

  • 大量的 vcf 建议使用 bgzip 压缩后再使用,同时也可以用tabix建索引,方便操作非常大的vcf文件,具体见 tabix操作VCF文件

  • 数据处理过程中如生成较大的文本文件,建议压缩成gz格式,linux命令和各编程语言均支持直接处理gz文件,参考 gzip文件读写 ;

  • 一般文本文件压缩除使用gzip外,也可以使用 pigz(支持多线程) 来加速文件压缩解压;

  • 集群存储不支持被删除数据恢复,重要的数据及时本地备份,避免误删;

  • 大量小文件会影响集群性能,数据处理过程中生成的大量小文件需及时删除,如maker和Trinity的中间文件、软件源码等;

  • 每个集群账号均有一定的存储配额,超过配额无法写入数据,如有大量数据在处理,建议定期使用 diskquota 命令查看存储使用情况,避免超过使用配额导致程序挂掉;

  • 大量文件拷贝和跨服务器传输建议使用 rsync ,方便校验数据拷贝和传输是否完整,也可避免重复拷贝和传输;

  • 从服务器上传或下载原始数据后,建议做 md5校验 ,避免各种原因导致的数据传输不完整,具体使用参考文件 文件完整性检查

  • 数据较大的数据库 (nr、nt、interproscan等) 建议使用集群已下载好的,不要自己下载;

  • 用户组之间数据共享切不可简单地通过将home目录权限设置为 777 来实现,建议使用 ACL 精确地控制目录权限,以实现安全地与其它用户或用户组共享数据的目的,参考文档 数据共享;

本文阅读量  次
本站总访问量  次