2020年美賽C題優質基金挑戰（學習筆記）

2020年美賽C題

- 2020年美賽C題優質基金挑戰（學習筆記）
題目
怎么解決問題
演算法的選擇
背景
資料處理
資料填充
最大最小資料歸一化
模型選擇
優點好處

題目

該Goodgrant(格蘭特)基金會就是要幫助提高本科生參加在美國學院和大學教育表現的慈善組織，要做到這一點，該基金會擬共$ 100,000,000（100萬美元）捐給每年學校提供適當的小組，已經運行五年（短期）了，從2016年7月開始這樣做，他們不希望重復投資和其他重點大型授予組織如蓋茨基金會和Lumina的基礎，

您的團隊已被要求由Goodgrant基金會建立一個模型，以確定最佳的投資策略，確定了學校，每所學校的投資金額，對投資回報率，以及持續時間，（feture）并希望該組織的資金應提供有最高可能產生對學生的表現有很強的正效應，（預測，投資應有價值和幫助）該戰略應包括學校，你是根據每個候選學校的證明潛力有效地利用私人資金，建議投資適當的方式定義的1到N優化并優先候選名單，和投資回報（ROI）（核心問題）的預計收益慈善組織如Goodgrant基金會，

為了幫助你的努力，附加的資料檔案（ProblemCDATA.zip）包含來自美國國家中心教育統計（www.nces.ed.gov/ipeds），它在幾乎所有的后擁有大量的調查資訊資料庫中提取資訊二級學院和大學在美國，與大學記分卡的資料集（https://collegescorecard.ed.gov），其中包括各種機構的性能資料，您的模型和隨后的戰略必須建立在這兩個資料集的一些有意義的，可防御的子集，（給定的資料有殘缺）

怎么解決問題

怎么解決問題：
這個C題目核心問題是建立一個投資回報率模型，然后我們可以通過賽題提供的資料抽取相關影響的投資回報率模型features（投資金額，投資回報率，持續時間），以及過去5年的投資結果對我們未來的投資專案進行優化和預測，

演算法的選擇

演算法的選擇：
看到這個題目屬于建立優化和預測的模型，我們就可以想到很多和這個模型相關的演算法
比如時間序列演算法，灰色預測演算法，K-mean聚類，線性預測，主成分分析，拉格朗日插值，AR預測模型等等演算法來搭建模型，
然后我們這篇論文根據它的概述外面也很容易了解到它也是選擇基礎的如時間序列演算法，灰色預測演算法，K-mean聚類等演算法
因為美賽的題目大概都是從以下6個框架來提取的
①　擬合和分析
②　關聯和因果
③　分類和判別
④　評價與決策
⑤　預測和預報
⑥　優化和控制
啟示：這給我們的啟示是我們要注重6個模型的基本演算法，在分析完題目就大概了解到我們需要什么樣的演算法來建立模型了

背景

正文的話選擇大資料為切入點，這也剛好符合我們C題目的型別，并且在最后也簡要概述了我們這個模型，

資料處理

資料處理：
因為原始資料量大，首先要根據資訊的完整性和有用性進行資料篩選，比賽的資料檔案提供了7805所學校
對7805所學校進行資料篩選:
我們只考慮檔案問題中的2978所候選學校，并將這些學校與檔案問題C- Most Recent cohordata(記分卡元素).xlsx中的95個屬性進行匹配，（為了讓我們的投資有意義，我們選擇的投資學校必須擁有嚴格的制度體系，注冊資訊，資訊評價良好等正確的因素，不然的我們的投資毫無意義）
操作步驟：
①　洗掉那些目前不是運營機構、受教育部嚴格資金監控的學校，這意味著它們面臨經濟蕭條、缺少學生、沒有或非常有限的學位授予比例資訊，在這些學校上投資毫無意義，
②　洗掉50%屬性為空的學校，如果缺失資料的百分比超過50%，則歸算會產生很大的誤差，我們將其作為缺失資料的閾值(閾值又叫臨界值，是指一個效應能夠產生的最低值或最高值)

資料填充

資料填充：
K-means聚類演算法（K代表質心）
操作步驟：
①　先把擁有完整資訊的學校按照不同屬性聚類（“PCIPXXXXX”指不同學科(包括38個學科)所授予學位的百分比，表示各學校的學科構成;“UGDS”指學校的規模，“UGDs xXXXX”指白人、黑人、亞裔等學生的比例(包括9種不同的屬性)，表示學校的學生構成;而“PCT- FLOAN”指的是所有獲得聯邦學生貸款的聯邦本科生的百分比，表示學生的學校經濟狀況，）
②　再把具有相同屬性的聚類后的數值取平均值填到缺失的資料中，

最大最小資料歸一化

最大最小資料歸一化：
資料的離散性大大降低，資料之間的內聚性增加，資料更加密集

模型選擇

用了什么模型：
ROI評價模型(投資回報率（ROI）=產出/投入緊迫感100%)
產出（畢業后工資、留職率、還款能力、教育提升率）
投入（學費）
緊迫感（助學金、貸款）
通過層次分析法、主成分分析法獲得各個屬性所占有的權重
通過灰色預測模型、時間序列模型求取最優解，預測未來收益最大化

優點好處

優點好處是什么：
①　把題目歸類
②　使用的典型演算法（K型聚類演算法、層次分析法、主成分分析法、灰色預測模型、時間序列模型）來建立模型
③　對論文的寫作排版內容有了更深的理解

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/259195.html

標籤：其他

上一篇：Flink自定義Source實作對HDFS檔案進行tail -f操作

下一篇：賽博朋克2077 1.03-1.05升級補丁