数据下载
Warning
数据下载不需要提交lsf作业,直接在登录节点运行wget、prefetch等下载程序即可。
目前集群只有3台登录节点联网(2台校内登录,1台校外登录)、并具有独立IP,每个节点理论最高网速为100MB/s。计算节点禁止联网,因此数据下载仅能在登录节点进行,数据上传到ncbi同理。
有大批量数据下载时,建议在3台节点上分别跑一部分下载任务,方可达到最高的下载速度。
如果下载时间较长,建议开个screen进行操作,使用wget时加上断点续传选项。screen 和 wget 使用见 Linux基础。
大量数据下载时,一个用户在登录节点上同时运行不超过3个下载任务,以prefetch为例:
$ screen -S prefetch
$ cat id_list
ID1
ID2
ID3
ID4
ID5
ID6
ID7
ID8
ID9
ID10
$ cat id_list|xargr -i -P 3 prefetch {}
kingfisher¶
使用kingfisher可以快速从多个源下载公共测序数据 (EBI ENA, NCBI SRA, Amazon AWS 和 Google Cloud ),用户提供一个或多个"run accession number",如
ERR1739691
,或 "BioProject accession number",如PRJNA621514`` 或
SRP260223`。
SRA数据下载可以使用kingfisher代替prefetch、ascp等工具,具体使用见 kingfisher。
ascp¶
$ module load aspera-connect/3.9.9.177872
$ ascp -i $ASPERAKEY -k 1 -T -l1000m anonftp@ftp.ncbi.nih.gov:/blast/db/FASTA/nr.gz ./
nr 100% 186GB 19.4Mb/s 7:37:51
Completed: 195328267K bytes transferred in 27472 seconds
(58245K bits/sec), in 1 file.
EdgeTurbo¶
CNCB 数据下载
https://cloud.tencent.com/developer/article/2228281
百度云¶
集群上可以使用命令行工具 BaiduPCS-Go
进行百度云文件的上传和下载,具体使用见 BaiduPCS-Go。
本站总访问量 次