2021華為杯數學建模D題思路-抗乳腺癌候選藥物的優化建模-有解無憂

2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模 2021華為杯數學建模D題思路 2021華為杯D題思路抗乳腺癌候選藥物的優化建模

允許售賣，鼓勵改進后再售賣，歡迎各位同行私信交流，有公眾號或博客的，加群給管理

鏈接：https://pan.baidu.com/s/15SzJ-HIQiSDmME9J8Zln9g
提取碼：6epk

這道題就是分類問題，解決的方法基本都是機器學習(含深度學習、強化學習)的方法，來看第一問

第一問，ERα_activity中一般采用pIC50來表示生物活性值，看這一列就好，Molecular_Descriptor有729個指標，給出關聯程度前Top20，資料都是實驗資料，資料要不要標準化處理，如果要處理那么后文都得用這個標準化處理后的資料，要么就不處理，標準化處理后會改變演算法的結果，算各指標的關聯性直接加個回圈依次求每個指標與pIC50的相關性即可，SMILES都是單獨的一個實驗，就認為資料是真實檢測的，不需要進行例外樣本剔除，第一問求相關性看著簡單，真正的挑戰還在后面，第一問的結果設計到后文的機器學習演算法，演算法對資料集的質量要求挺高的，因此你們在做第一問的時候可以擬幾種演算法結果，具體寫什么看后文演算法的效果，想關性演算法有：灰色關聯、皮爾遜、秩相關、肯德爾、余弦、典型相關分析、Elasticsearch相關性...

第二問，采用第一問中的Top20的指標構建pIC50的關系模型，不用想肯定是非線性，預測模型可以是神經網路、決策樹系列拿不到關系式的演算法模型，也可以是回歸系列能求出關系式的模型，第一種做法不用多說，演算法內置函式本身就是非線性，最后繪制一些誤差、性能檢驗圖即可，第二種回歸的非線性做法簡單講下，雖然我們看回歸演算法都是線性擬合的，但是可以添加非線性變數，例如x=[X(:,1:15),X(:,1:15).^2,X(:,1:15).^3,X(:,1:15).^4,X(:,1:15).^5,exp(X(:,1:15))];構建一個非線性自變數集，然后直接帶入演算法求引數，說到擬合還不得不提及1stopt神器，但僅支持最多二元擬合，可以分別找出20個指標和pIC50最合適的經驗公式，然后合成一個大的關系式，對其中引數進行擬合，使用機器學習演算法一步到位，這確實很方便，給你們多幾種參考，自行選擇，演算法訓練或得出關系式后，帶入Molecular_Descriptor中test資料集求出IC50_nM列及對應的pIC50列，題目也說了IC50_nM和pIC50是可以換算的，本文只針對其中一個用于演算法模型即可，之后再用1stopt或者擬合演算法確定IC50_nM和pIC50的換算公式就行

第三問，記住是五個分類預測模型，不是說ADMET中的Caco-2、CYP3A4、hERG、HOB、MN作為一個訓練輸出，而是分開來做，Caco-2、CYP3A4、hERG、HOB、MN只有0，1兩個值，那就是二分類問題，同樣的最好先進行指標的選取，并且這類資料離散度很強，會有小伙伴說，二分類問題用隨機森林、svm、prnn神經網路等演算法直接搞，演算法是沒問題額，但任何一種機器學習演算法的實作效果很依賴資料集，第三問不得不先對資料集進行處理，記住第三問是分別對Caco-2、CYP3A4、hERG、HOB、MN進行研究，不是說資料處理了一次就好了，每種輸出它的相關指標不一樣，五種輸出選區的指標應當是不相同的，其實這個問很好辦，各位可以參考下協同過濾推薦的方式，根據近鄰用戶的資料去計算，那么這個問，test中有50個實驗，對應的是Molecular_Descriptor中的test，那么就先找一下test50個實驗與training中前k個近鄰實驗，從而構建出訓練集，這樣構建出的訓練集，交叉資料肯定會少很多，然后再同第一問方式取前m個指標，接下來就是帶演算法進去訓練然后預測，除了本段已說到的方法，可以考慮一些前沿的演算法去做，例如Xgboost、受限玻爾茲曼機(RBM)[DBN神經網路中的核心]、多層感知MLP、自組織映射SOM、生成式對抗網路GAN、回圈神經網路RNN、GRNN、PRNN等，最后結果記得填入ADMET.xlsx中的test

第四問，先找出ADMET中有三個1的實驗，然后就第一問選出的指標，通過第二問方式重新求得一個關系模型，其實從這里來看，第二問用可以得出關系是的演算法模型，就能和本問緊密聯系起來了，得到新的關系模型后，接下來就是套用優化演算法尋優了，以pIC50值為目標函式，最大化尋優，或者對IC50最小化尋優，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/316360.html

標籤：AI

上一篇：ifelse停止條件

下一篇：CSS影片僅在第一次觸發