搞生物的、搞生信的離不開下載基因或蛋白序列,如果你有一個物種、一個基因、一個蛋白、一個RNA還好說,我就點點下載唄,但是如果你要下載的物種、基因或蛋白很多很多,是個長串列,那就不適合一個一個的費力的下載了,這個時候就需要用編程的思想解決問題,讓機器不知疲倦的幫我們完成機械式的任務!
下面是一個現實任務:需要下載31個物種的蛋白質組FASTA序列資料庫,我們使用Linux shell編程去解決,這個方法和思路可以延伸和擴展,大家根據自己的實際問題進行修改代碼,我的代碼如下:
#!/usr/bin/bash
for w in $(cat Species_fasta_websites.txt)
do
echo "當前下載的物種序列資料庫網址為:"
echo
website=`echo ${w##*:}`
taxid=`echo ${website%%&*}`
wget -c -O "Uniprot_taxonomy_$taxid.fasta.gz" $w
echo
echo "Species $taxid Seq Database is Download Finished!"
done
上面的代碼保存到一個名為:downloader.sh的檔案中,然后與這個downloader.sh檔案處于同一個檔案夾中的一個記錄著要下載的所有網址,然后我們使用強大的linux命令去遍歷的下載它,當然,你也可以使用R、Python、Perl、Java、Julia、C等等語言去實作這樣的功能,不管你用什么語言,我們目的是一樣的!
這個檔案Species_fasta_websites.txt的內容截屏如下:

轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/223776.html
標籤:其他
上一篇:nginx安裝lua+redis
下一篇:NetAnim 安裝避雷提示
