跳转至

数据下载

Warning

数据下载不需要提交lsf作业,直接在登录节点运行wget、prefetch等下载程序即可。

目前集群只有3台登录节点联网(2台校内登录,1台校外登录)、并具有独立IP,每个节点理论最高网速为100MB/s。计算节点禁止联网,因此数据下载仅能在登录节点进行,数据上传到ncbi同理。

有大批量数据下载时,建议在3台节点上分别跑一部分下载任务,方可达到最高的下载速度。

如果下载时间较长,建议开个screen进行操作,使用wget时加上断点续传选项。screen 和 wget 使用见 Linux基础

大量数据下载时,一个用户在登录节点上同时运行不超过3个下载任务,以prefetch为例:

$ screen -S prefetch

$ cat id_list
ID1
ID2 
ID3 
ID4 
ID5 
ID6 
ID7 
ID8 
ID9 
ID10

$ cat id_list|xargr -i -P 3 prefetch {}

kingfisher

使用kingfisher可以快速从多个源下载公共测序数据 (EBI ENA, NCBI SRA, Amazon AWS 和 Google Cloud ),用户提供一个或多个"run accession number",如 ERR1739691,或 "BioProject accession number",如 PRJNA621514`` 或SRP260223`。

SRA数据下载可以使用kingfisher代替prefetch、ascp等工具,具体使用见 kingfisher

ascp

$ module load aspera-connect/3.9.9.177872
$ ascp -i $ASPERAKEY -k 1 -T -l1000m anonftp@ftp.ncbi.nih.gov:/blast/db/FASTA/nr.gz ./
nr                         100%  186GB 19.4Mb/s  7:37:51    
Completed: 195328267K bytes transferred in 27472 seconds
 (58245K bits/sec), in 1 file.

EdgeTurbo

CNCB 数据下载

https://cloud.tencent.com/developer/article/2228281

百度云

集群上可以使用命令行工具 BaiduPCS-Go 进行百度云文件的上传和下载,具体使用见 BaiduPCS-Go

本文阅读量  次
本站总访问量  次