我是一個生信菜鳥,在使用hisat2比對到基因組序列時出現了很多問題,下面簡單說一下我踩過的坑。
1,個人覺得,除非要構建含有外顯子和剪切位點的index,若只是比對到基因組上的話,可以直接從hisat2官網下載參考基因組的index,下載后會在一個檔案夾中(人類的是hg19如果下載的hg19的,小鼠的是mm10),其中都是genome.123。。。.ht2檔案
2,使用hisat2比對時,最好把index.x.ht2、.fq.gz檔案、預存放.sam放到同一個檔案夾下,不然可能會出錯。。我也不知道為什么因為我很菜
3,使用hisat2之前一定要hisat2 -h看清其中的命令介紹,不然你會吃大虧! hisat2比對的一般引數如下
hisat2 –p 8 --dta –x hg19/genome -1 sample_1.fq.gz -2 sample_2.fq.gz –S sample.sam -p 8一般多少核去運行,這個看自己電腦的記憶體,我的16g選擇八核稍微有點點卡,--dta是報告,-x是你的標識,hg19是你的index存放目錄,而genome是你的index檔案前綴!這時候插一句,如果你沒有好好看清hisat2的要求,你可能就直接把hg19這個檔案夾放到-x后面,或者將其中的genome.x.ht2利用正則運算式genome.*放到-x后面,再或者你可能利用cat > 整個成一個genome,這些都會導致hisat2不認識你的index檔案,看清hisat2要求后,你就明白了,人家只是想要index的前綴,所以你只需把hg19/genome放到-x后面就可以!
后面的-1 -2的fastq檔案一定要寫對路徑,或者就像我說的把他們放到同一個檔案夾下,我喜歡用aligned命名檔案夾
這樣路徑不會錯,并且hisat2不會抽風的報錯!
4,如果你的fastq檔案很多,你可以在終端利用for...do...done寫一個簡單的回圈for i in ’seq xx yy’ do hisat2 -p 8 - x hg19/genome(你的所有index檔案前綴) -1 sample${i}1.fq.gz -2 sample${i}2.fq.gz -S sample${i}.sam
如果你想在vim中寫一個sh的話,注意別忘了配置PATH
5,不會的一定要多查多問,不要閉門造車,不然很浪費時間!祝大家都成為生信高手!
最后附上一張運行圖(我的Ubuntu就是那么可愛,還有小企鵝
雖然這是centos的標簽但是我還是想用哈哈)
uj5u.com熱心網友回復:
我使用hisat2進行基因組索引檔案的構建,已經運行了兩天兩夜了,但是還是沒有跑完,我在想,需要這么長時間嗎?
uj5u.com熱心網友回復:
是不是卡了啊,我構建沒有那么久,16g記憶體構建了兩個多小時
uj5u.com熱心網友回復:
問題已經解決,是因為1)構建索引需要記憶體在200G左右;2)8核或以上處理器。uj5u.com熱心網友回復:
哈哈,還是硬傷,






uj5u.com熱心網友回復:
你好,請問你說的200g記憶體是硬碟空間嗎?怎么樓上16g都能構建,你的要200g記憶體。。太可怕了吧
uj5u.com熱心網友回復:
比對時如圖報錯怎么辦啊 檔案的確存在啊
uj5u.com熱心網友回復:
最近我使用Hisat2處理家蠶的轉錄組資料,但是出現我無法debug的錯誤,還請大神指教。簡述如下:1.家蠶基因組大概468.3Mb, 28條染色體;
2.服務器288個核,1T記憶體。幾乎就我一個人在用。
3.hisat2-build 構建index未發現問題;
4.hissat2 alignment的時候請看下面一個例子。使用top命令查看內容使用情況,隨著時間的延長,記憶體一路攀升。
hisat2 -t -p 30 --dta -x /home/RNAseq_2/source/silkworm/index/silkworm_tran -1 /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/cleandata/306D3D1a_R1-clean.fastq.gz -2 /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/cleandata/306D3D1a_R2-clean.fastq.gz -S /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/alignedFromHisat2Results/306D3D1a.sam
5. 目標sam檔案預估計22G,目前為7.8G,大事%mem已經55%。感覺這個行程無止境地在占用記憶體。
6. 之前嘗試使用8個核,同時運行5個類似的程式,但是出現運行錯誤。錯誤資訊如下:
(ERR): hisat2-align died with signal 9 (KILL)
7. 我嘗試google過原因,最大可能也是記憶體爆了。在沒有出現程式錯誤之前,sam檔案也不在變大,完全stop。
8. 除了以上的運行失敗外,運行時間也超乎尋常的長。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/31162.html
標籤:非技術區
