2021年華為杯中國研究生數學建模競賽B題-空氣質量預報二次建模-思路-程式
程式鏈接:https://mianbaoduo.com/o/bread/YZ6WmZtt
問題1. 使用附件1中的資料,按照附錄中的方法計算監測點A從2020年8月25日到8月28日每天實測的AQI和首要污染物,將結果按照附錄“AQI計算結果表”的格式放在正文中,
針對問題1: 并沒有什么難度,根據給出的方法,采用合理的方式進行相應的計算即可,需要注意的是,缺失值的填充方式,可能會影響最終的計算結果,而缺失值的填充方式有很多種,但是針對這種具有時序型的監測資料,缺失值受到前面時刻和后面時刻的影響較大,缺失值可使用前后時刻的均值、前面時刻的值、前后幾個時刻的均值等方式,(針對提示的資料例外情形,除了缺失值之外,還應注意偶然因素的影響)建議使用時序折線圖等可視化方式,對資料進行全域和區域的觀察,
缺失值填充方法:利用前面的填充、利用前面和后面的均值填充、利用均值(中位數)填充、考慮多個變數影響關系的填充方式,如KNN等,
資料可視化方法:折線圖、箱線圖等
問題2. 在污染物排放情況不變的條件下,某一地區的氣象條件有利于污染物擴散或沉降時,該地區的AQI會下降,反之會上升,使用附件1中的資料,根據對污染物濃度的影響程度,對氣象條件進行合理分類,并闡述各類氣象條件的特征,
針對問題2 合理分類:由于這并沒有固定的說有幾類,所以應該根據資料的分布情況進行分析,直觀的方式就是聚類分析(可使用的聚類演算法有很多種),根據資料的聚集情況進行分類,然后闡述每類資料的氣象條件特征(這個特征的最簡單表示可以使用簇的中心),以及這些氣象特征對污染物擴散或者沉降的影響,進而對AQI的影響,
聚類方法:K均值聚類、K中值聚類、密度聚類、系統聚類等,聚類結果可視化可借助TSNE等方式進行降維可視化、輪廓系數圖等,
問題3. 使用附件1、2中的資料,建立一個同時適用于A、B、C三個監測點(監測點兩兩間直線距離>100km,忽略相互影響)的二次預報數學模型,用來預測未來三天6種常規污染物單日濃度值,要求二次預報模型預測結果中AQI預報值的最大相對誤差應盡量小,且首要污染物預測準確度盡量高,并使用該模型預測監測點A、B、C在2021年7月13日至7月15日6種常規污染物的單日濃度值,計算相應的AQI和首要污染物,將結果依照附錄“污染物濃度及AQI預測結果表”的格式放在論文中,
針對問題3:使用3個地點的資料集,建立二次預報數學模型,該模型具體使用什么方法,可以有很多種,如何評價預測效果的好壞,通過AQI的相對誤差和首要污染物預測準確度(這兩個指標都可以使用給定的資料計算出來,所以可以認為模型的監測目標有兩個,而且這兩個又有一定的關系,)針對AQI的取值可以看著是一個回歸型別的模型,針對首要污染物預測準確度可以看作是一個分類問題,而且兩種損失函式也可以融合為一個,鑒于該資料又有一定的時序性,所以建模時也不能忽略時序的印象,例如:可以使用多個、多種模型融合的組合式建模方法,與時序LSTM等相關的深度學習演算法,
機器學習演算法:支持向量機、神經網路、隨機森林、多元線性回歸、Ridge回歸、ARIMA、ARIMAX、Prophet、LSTM、RNN等,
問題4. 相鄰區域的污染物濃度往往具有一定的相關性,區域協同預報可能會提升空氣質量預報的準確度,如圖 4,監測點A的臨近區域記憶體在監測點A1、A2、A3,使用附件1、3中的資料,建立包含A、A1、A2、A3四個監測點的協同預報模型,要求二次模型預測結果中AQI預報值的最大相對誤差應盡量小,且首要污染物預測準確度盡量高,使用該模型預測監測點A、A1、A2、A3在2021年7月13日至7月15日6種常規污染物的單日濃度值,計算相應的AQI和首要污染物,將結果依照附錄“污染物濃度及AQI預測結果表”的格式放在論文中,并討論:與問題3的模型相比,協同預報模型能否提升針對監測點A的污染物濃度預報準確度?說明原因,
針對問題4:相對于問題3,該問題需要更近一步的考慮方位和距離對空氣質量的影響,評價的指標和問題3相同,因此可以在問題3的建模結果的基礎上進行相應的考慮,例如:添加新的特征,或者根據風向等氣象指標考慮污染物的流動等因素,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/317794.html
標籤:AI
