2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路 抗乳腺癌候選藥物的優化建模
允許售賣,鼓勵改進后再售賣,歡迎各位同行私信交流,有公眾號或博客的,加群給管理
鏈接:https://pan.baidu.com/s/15SzJ-HIQiSDmME9J8Zln9g
提取碼:6epk
這道題就是分類問題,解決的方法基本都是機器學習(含深度學習、強化學習)的方法,來看第一問
第一問,ERα_activity中一般采用pIC50來表示生物活性值,看這一列就好,Molecular_Descriptor有729個指標,給出關聯程度前Top20,資料都是實驗資料,資料要不要標準化處理,如果要處理那么后文都得用這個標準化處理后的資料,要么就不處理,標準化處理后會改變演算法的結果,算各指標的關聯性直接加個回圈依次求每個指標與pIC50的相關性即可,SMILES都是單獨的一個實驗,就認為資料是真實檢測的,不需要進行例外樣本剔除,第一問求相關性看著簡單,真正的挑戰還在后面,第一問的結果設計到后文的機器學習演算法,演算法對資料集的質量要求挺高的,因此你們在做第一問的時候可以擬幾種演算法結果,具體寫什么看后文演算法的效果,想關性演算法有:灰色關聯、皮爾遜、秩相關、肯德爾、余弦、典型相關分析、Elasticsearch相關性...
第二問,采用第一問中的Top20的指標構建pIC50的關系模型,不用想肯定是非線性,預測模型可以是神經網路、決策樹系列拿不到關系式的演算法模型,也可以是回歸系列能求出關系式的模型,第一種做法不用多說,演算法內置函式本身就是非線性,最后繪制一些誤差、性能檢驗圖即可,第二種回歸的非線性做法簡單講下,雖然我們看回歸演算法都是線性擬合的,但是可以添加非線性變數,例如x=[X(:,1:15),X(:,1:15).^2,X(:,1:15).^3,X(:,1:15).^4,X(:,1:15).^5,exp(X(:,1:15))];構建一個非線性自變數集,然后直接帶入演算法求引數,說到擬合還不得不提及1stopt神器,但僅支持最多二元擬合,可以分別找出20個指標和pIC50最合適的經驗公式,然后合成一個大的關系式,對其中引數進行擬合,使用機器學習演算法一步到位,這確實很方便,給你們多幾種參考,自行選擇,演算法訓練或得出關系式后,帶入Molecular_Descriptor中test資料集求出IC50_nM列及對應的pIC50列,題目也說了IC50_nM和pIC50是可以換算的,本文只針對其中一個用于演算法模型即可,之后再用1stopt或者擬合演算法確定IC50_nM和pIC50的換算公式就行
第三問,記住是五個分類預測模型,不是說ADMET中的Caco-2、CYP3A4、hERG、HOB、MN作為一個訓練輸出,而是分開來做,Caco-2、CYP3A4、hERG、HOB、MN只有0,1兩個值,那就是二分類問題,同樣的最好先進行指標的選取,并且這類資料離散度很強,會有小伙伴說,二分類問題用隨機森林、svm、prnn神經網路等演算法直接搞,演算法是沒問題額,但任何一種機器學習演算法的實作效果很依賴資料集,第三問不得不先對資料集進行處理,記住第三問是分別對Caco-2、CYP3A4、hERG、HOB、MN進行研究,不是說資料處理了一次就好了,每種輸出它的相關指標不一樣,五種輸出選區的指標應當是不相同的,其實這個問很好辦,各位可以參考下協同過濾推薦的方式,根據近鄰用戶的資料去計算,那么這個問,test中有50個實驗,對應的是Molecular_Descriptor中的test,那么就先找一下test50個實驗與training中前k個近鄰實驗,從而構建出訓練集,這樣構建出的訓練集,交叉資料肯定會少很多,然后再同第一問方式取前m個指標,接下來就是帶演算法進去訓練然后預測,除了本段已說到的方法,可以考慮一些前沿的演算法去做,例如Xgboost、受限玻爾茲曼機(RBM)[DBN神經網路中的核心]、多層感知MLP、自組織映射SOM、生成式對抗網路GAN、回圈神經網路RNN、GRNN、PRNN等,最后結果記得填入ADMET.xlsx中的test
第四問,先找出ADMET中有三個1的實驗,然后就第一問選出的指標,通過第二問方式重新求得一個關系模型,其實從這里來看,第二問用可以得出關系是的演算法模型,就能和本問緊密聯系起來了,得到新的關系模型后,接下來就是套用優化演算法尋優了,以pIC50值為目標函式,最大化尋優,或者對IC50最小化尋優,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/316360.html
標籤:AI
上一篇:ifelse停止條件
下一篇:CSS影片僅在第一次觸發
