2021華為杯研究生數學建模競賽D題思路分析-有解無憂

2021年中國研究生數學建模競賽D題

抗乳腺癌候選藥物的優化建模

一、背景介紹

乳腺癌是目前世界上最常見，致死率較高的癌癥之一，乳腺癌的發展與雌激素受體密切相關，有研究發現，雌激素受體α亞型（Estrogen receptors alpha, ERα）在不超過10%的正常乳腺上皮細胞中表達，但大約在50%-80%的乳腺腫瘤細胞中表達；而對ERα基因缺失小鼠的實驗結果表明，ERα確實在乳腺發育程序中扮演了十分重要的角色，目前，抗激素治療常用于ERα表達的乳腺癌患者，其通過調節雌激素受體活性來控制體記憶體激素水平，因此，ERα被認為是治療乳腺癌的重要靶標，能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物，比如，臨床治療乳腺癌的經典藥物他莫昔芬和雷諾昔芬就是ERα拮抗劑，

目前，在藥物研發中，為了節約時間和成本，通常采用建立化合物活性預測模型的方法來篩選潛在活性化合物，具體做法是：針對與疾病相關的某個靶標（此處為ERα），收集一系列作用于該靶標的化合物及其生物活性資料，然后以一系列分子結構描述符作為自變數，化合物的生物活性值作為因變數，構建化合物的定量結構-活性關系（Quantitative Structure-Activity Relationship, QSAR）模型，然后使用該模型預測具有更好生物活性的新化合物分子，或者指導已有活性化合物的結構優化，

一個化合物想要成為候選藥物，除了需要具備良好的生物活性（此處指抗乳腺癌活性）外，還需要在人體內具備良好的藥代動力學性質和安全性，合稱為ADMET（Absorption吸收、Distribution分布、Metabolism代謝、Excretion排泄、Toxicity毒性）性質，其中，ADME主要指化合物的藥代動力學性質，描述了化合物在生物體內的濃度隨時間變化的規律，T主要指化合物可能在人體內產生的毒副作用，一個化合物的活性再好，如果其ADMET性質不佳，比如很難被人體吸收，或者體內代謝速度太快，或者具有某種毒性，那么其仍然難以成為藥物，因而還需要進行ADMET性質優化，為了方便建模，本試題僅考慮化合物的5種ADMET性質，分別是：1）小腸上皮細胞滲透性（Caco-2），可度量化合物被人體吸收的能力；2）細胞色素P450酶（Cytochrome P450, CYP）3A4亞型（CYP3A4），這是人體內的主要代謝酶，可度量化合物的代謝穩定性；3）化合物心臟安全性評價（human Ether-a-go-go Related Gene, hERG），可度量化合物的心臟毒性；4）人體口服生物利用度（Human Oral Bioavailability, HOB），可度量藥物進入人體后被吸收進入人體血液回圈的藥量比例；5）微核試驗（Micronucleus，MN），是檢測化合物是否具有遺傳毒性的一種方法，

二、資料集介紹及建模目標

本試題針對乳腺癌治療靶標ERα，首先提供了1974個化合物對ERα的生物活性資料，這些資料包含在檔案“ERα_activity.xlsx”的training表（訓練集）中，training表包含3列，第一列提供了1974個化合物的結構式，用一維線性運算式SMILES（Simplified Molecular Input Line Entry System）表示；第二列是化合物對ERα的生物活性值（用IC50表示，為實驗測定值，單位是nM，值越小代表生物活性越大，對抑制ERα活性越有效）；第三列是將第二列IC50值轉化而得的pIC50（即IC50值的負對數，該值通常與生物活性具有正相關性，即pIC50值越大表明生物活性越高；實際QSAR建模中，一般采用pIC50來表示生物活性值），該檔案另有一個test表（測驗集），里面提供有50個化合物的SMILES式，

其次，在檔案“Molecular_Descriptor.xlsx”的training表（訓練集）中，給出了上述1974個化合物的729個分子描述符資訊（即自變數），其中第一列也是化合物的SMILES式（編號順序與上表一樣），其后共有729列，每列代表化合物的一個分子描述符（即一個自變數），化合物的分子描述符是一系列用于描述化合物的結構和性質特征的引數，包括物理化學性質（如分子量，LogP等），拓撲結構特征（如氫鍵供體數量，氫鍵受體數量等），等等，關于每個分子描述符的具體含義，請參見檔案“分子描述符含義解釋.xlsx”，同樣地，該檔案也有一個test表，里面給出了上述50個測驗集化合物的729個分子描述符，

最后，在關注化合物生物活性的同時，還需要考慮其ADMET性質，因此，在檔案“ADMET.xlsx”的training表（訓練集）中，提供了上述1974個化合物的5種ADMET性質的資料，其中第一列也是表示化合物結構的SMILES式（編號順序與前面一樣），其后5列分別對應每個化合物的ADMET性質，采用二分類法提供相應的取值，Caco-2：‘1’代表該化合物的小腸上皮細胞滲透性較好，‘0’代表該化合物的小腸上皮細胞滲透性較差；CYP3A4：‘1’代表該化合物能夠被CYP3A4代謝，‘0’代表該化合物不能被CYP3A4代謝；hERG：‘1’代表該化合物具有心臟毒性，‘0’代表該化合物不具有心臟毒性；HOB：‘1’代表該化合物的口服生物利用度較好，‘0’代表該化合物的口服生物利用度較差；MN：‘1’代表該化合物具有遺傳毒性，‘0’代表該化合物不具有遺傳毒性，同樣地，該檔案也有一個test表，里面提供有上述50個化合物的SMILES式（編號順序同上），

建模目標：根據提供的ERα拮抗劑資訊（1974個化合物樣本，每個樣本都有729個分子描述符變數，1個生物活性資料，5個ADMET性質資料），構建化合物生物活性的定量預測模型和ADMET性質的分類預測模型，從而為同時優化ERα拮抗劑的生物活性和ADMET性質提供預測服務，

三、需解決問題

問題1. 根據檔案“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的資料，針對1974個化合物的729個分子描述符進行變數選擇，根據變數對生物活性影響的重要性進行排序，并給出前20個對生物活性最具有顯著影響的分子描述符（即變數），并請詳細說明分子描述符篩選程序及其合理性，

問題2. 請結合問題1，選擇不超過20個分子描述符變數，構建化合物對ERα生物活性的定量預測模型，請敘述建模程序，然后使用構建的預測模型，對檔案“ERα_activity.xlsx”的test表中的50個化合物進行IC50值和對應的pIC50值預測，并將結果分別填入“ERα_activity.xlsx”的test表中的IC50_nM列及對應的pIC50列，

問題3. 請利用檔案“Molecular_Descriptor.xlsx”提供的729個分子描述符，針對檔案“ADMET.xlsx”中提供的1974個化合物的ADMET資料，分別構建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分類預測模型，并簡要敘述建模程序，然后使用所構建的5個分類預測模型，對檔案“ADMET.xlsx”的test表中的50個化合物進行相應的預測，并將結果填入“ADMET.xlsx”的test表中對應的Caco-2、CYP3A4、hERG、HOB、MN列，

問題4. 尋找并闡述化合物的哪些分子描述符，以及這些分子描述符在什么取值或者處于什么取值范圍時，能夠使化合物對抑制ERα具有更好的生物活性，同時具有更好的ADMET性質（給定的五個ADMET性質中，至少三個性質較好），

鏈接：https://pan.baidu.com/s/10uixCmmHsXDglVLw3JN0IQ
提取碼：n4xr

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/317782.html

標籤：AI

上一篇：關于編程學習，一些想說的

下一篇：Python將彩色圖轉換為灰度圖