主頁 >  其他 > 2021年美國大學生數學建模競賽D題思路分析

2021年美國大學生數學建模競賽D題思路分析

2021-02-07 12:55:34 其他

文章目錄

  • 下載鏈接
  • 原文翻譯
  • 思路分析
  • 詳細思路

下載鏈接

2021美賽題目下載:鏈接:https://pan.baidu.com/s/1yFdg3vBMS4MY7CnQ3PMG9Q
提取碼:6666

原文翻譯

  • 2021年國際商會
    問題D:音樂的影響
    音樂是人類社會的一部分,是文化遺產的重要組成部分,作為理解音樂在人類集體經驗中所扮演角色的努力的一部分,我們被要求開發一種方法來量化音樂進化,當藝術家創作一首新音樂時,有許多因素可以影響他們,包括他們與生俱來的創造力、當前的社會或政治事件、獲得新的樂器或工具的機會或其他個人經歷,我們的目標是了解和衡量以前制作的音樂對新音樂和音樂藝術家的影響,一些藝術家可以列出十幾個或更多的其他藝術家,他們說他們影響了他們自己的音樂作品,還有人建議,影響可以用歌曲特征之間的相似程度來衡量,如結構、節奏或歌詞,音樂有時會發生革命性的變化,提供新的聲音或節奏,例如當一個新的體裁出現時,或者有一個現有的體裁的重新發明(例如,古典、流行/搖滾、爵士樂等,),這可能是由于一系列微小的變化,藝術家的合作努力,一系列有影響力的藝術家,或社會內部的轉變,許多歌曲有著相似的聲音,許多藝術家為音樂流派的重大轉變做出了貢獻,有時這些變化是由于一個藝術家影響另一個藝術家,有時,它是針對外部事件(如重大世界事件或技術進步)而出現的變化),通過考慮歌曲網路及其音樂特征,我們可以開始捕捉音樂藝術家對彼此的影響,也許,我們還可以更好地了解音樂是如何隨著時間的推移在社會中演變的,您的團隊已經被整合集體音樂(ICM)協會確定,以開發一個衡量音樂影響的模型,這個問題要求你研究藝術家和流派的進化和革命趨勢,為了做到這一點,ICM給了您的團隊幾個資料集:

    1. “influence_data”1 代表音樂影響者和追隨者,如藝術家自己報告的,以及行業專家的意見,這些資料包含了過去90年來5,854名藝術家的影響者和追隨者,
    2. “full_music_data”2 提供16個可變的條目,包括音樂特征,如舞蹈性,節奏,響度和鍵,以及98,340首歌曲的artist_name和artist_id,這些資料用于創建兩個匯總資料集,包括:
      a. 藝術家“data_by_artist”的平均價值”,
      b. 意味著多年的“data_by_year”,
      1 這些資料來自All Music.com
      2 這些資料是從Spotify的API中獲得的
      注意:這些檔案中提供的資料是較大資料集的子集,這些檔案包含了你要為這個問題使用的唯一資料,
      為了實施這個具有挑戰性的專案,ICM協會要求您的團隊通過音樂藝術家隨時間的影響來探索音樂的演變,具體做法如下:
  • 使用influence_data資料集或其部分創建一個(多個)有向網路的音樂影響,其中影響者連接到追隨者,開發在這個網路中捕獲“音樂影響”的引數,通過創建你的定向影響者網路的子網來探索音樂影響的子集,描述這個子網,你的“音樂影響”措施在這個子網中揭示了什么?

  • 使用full_music_data和/或兩個匯總資料集(與藝術家和年份)的音樂特征,以制定音樂相似性的度量,用你的衡量標準,流派中的藝術家是否比流派之間的藝術家更相似?

  • 比較體裁之間和體裁內部的相似性和影響,一個體裁的區別是什么,體裁是如何隨著時間的推移而變化的? 有些體裁與其他體裁有關嗎?

  • 指出data_influence資料集中報告的相似性資料是否表明已識別的影響者實際上影響了各自的藝術家,“影響者”真的會影響追隨者創造的音樂嗎? 有些音樂特征是否比其他音樂更具有“傳染性”,或者它們在影響特定藝術家的音樂方面都有類似的作用?

  • 從這些資料中確定是否有可能意味著音樂進化的革命(重大飛躍)的特征? 什么藝術家代表革命者(重大變革的影響者)在你的網路?

  • 分析音樂演變的影響程序,隨著時間的推移,在一個體裁,你的團隊能找出揭示動態影響者的指標,并解釋流派或藝術家是如何隨著時間的推移而變化的嗎?

  • 你的作品如何在時間或環境中表達關于音樂文化影響的資訊? 或者,如何在網路中識別社會、政治或技術變革(如互聯網)的影響?
    寫一份一頁的檔案給ICM協會,關于使用你的方法來理解音樂通過網路的影響的價值,考慮到這兩個問題資料集僅限于某些型別,然后是兩個資料集共同的藝術家,您的作業或解決方案將如何隨著更多或更豐富的資料而變化? 建議進一步研究音樂及其對文化的影響,來自音樂、歷史、社會科學、技術和數學領域的跨學科和多樣化的ICM協會期待著您的最后報告,
    您的PDF解決方案不超過25頁,應包括:

  • 一頁匯總表,

  • 目錄,

  • 你的解決方案,

  • 提交ICM協會的一頁檔案,

  • 參考資料清單,
    注:2021年新 ICM競賽現在有25頁的限制,您提交的所有方面都按25頁的限制計算:摘要表、目錄`解決方案主體、影像和表格、一頁檔案、參考串列和任何附錄,
    附件
    我們為這個問題提供了以下四個資料檔案,提供的資料檔案包含您應該用于此問題的唯一資料

    1. influence_data.csv

    2. full_music_data.csv

    3. data_by_artist.csv

    4. data_by_year.c
      sv資料描述

    5. influence_data.csv
      (資料以utf-8編碼,以便處理特殊字符):

      • influencer_id:給被列為影響者的唯一識別號碼,(一串數字)
      • influencer_name:由追隨者或行業專家給出的影響藝術家的名字,(字串)
      • influencer_main_genre:最能描述影響藝術家創作的大部分音樂的體裁,(如果可
        用)(字串)
      • influencer_active_start:影響藝術家開始音樂生涯的十年,(整數)
      • follower_id:給被列為跟隨者的藝術家的唯一識別號碼,(一串數字)
      • follower_name:跟隨影響藝術家的藝術家的名字,(字串)
      • follower_main_genre:最能描述以下藝術家創作的大部分音樂的體裁,(如果可
        用)(字串)
      • follower_active_start:以下藝術家開始音樂生涯的十年,(整數)
    6. full_music_data.csv 3. data_by_artist.csv 4. data_by_year.csv
      Spotify音頻功能來自“full_music_data”、“data_by_artist”、“data_by_year”:

      • artist_name:表演曲目的藝術家,(陣列)
      • artist_id:influence_data.csv檔案中給出的相同唯一標識號,(一串數字)音樂的特點:
      • 舞蹈性:一種基于音樂元素的組合,包括節奏、節奏穩定性、節拍強度和整體規律性,來衡量一個曲目是否適合跳舞,值0.0是最不可跳舞的,1.0是最可跳舞的,(浮動)
      • 能量:表示對強度和活動的感知的度量,值0.0是最不強烈/能量的,1.0是最強烈/能量的,通常,充滿活力的軌道會感覺快速、響亮和嘈雜,例如,死亡金屬有很高的能量,而巴赫的前奏在量表上得分很低,這一屬性的感知特征包括動態范圍、感知響度、音色、起跳率和一般熵,(浮動)
      • 價態:一種描述曲目所傳達的音樂積極性的度量,值0.0最負,1.0最正,高價音的軌道更積極(例如,快樂,開朗,興高采烈),而低價音軌聽起來更消極(例如,悲傷,沮喪,憤怒),(浮動)
      • 節奏:以每分鐘節拍為單位的軌道的總體估計節奏(BPM),在音樂術語中,節奏是給定作品的速度或節奏,直接來源于平均節拍持續時間,(浮動)
      • 響度:軌道的整體響度,單位為分貝(dB),值在-60到0db之間的典型范圍,響度值在整個軌道上是平均的,對于比較軌道的相對響度是有用的,聲音是聲音的質量,是身體力量(振幅)的主要心理關聯),(浮動)
      • 模式:一種軌跡的情態(主要或次要)的指示,它的旋律內容是從其尺度的型別,主修用1表示,輔修用0表示,
      • 關鍵:估計軌道的總體關鍵,整數映射到點,使用標準的Pitch類表示法,E.g,0=C,1=C?/D?,2=D等等,如果沒有檢測到鍵,則鍵的值為-1,(整數)唱腔型別:
      • 聲學:衡量軌道是否聲學(沒有技術增強或電氣放大)的置信度),值1.0表示高度置信,軌道是聲學的,(浮動)
      • 工具性:預測一個曲目是否包含沒有聲音,在這種情況下,“嗚”和“啊”的聲音被視為工具,說唱或口語曲目顯然是“聲樂”,器樂值越接近1.0,曲目不包含聲樂內容的可能性就越大,高于0.5的值意在表示工具軌道,但隨著值接近1.0,置信度更高,(浮動)
      • 活力:在賽道上檢測觀眾的存在,較高的活性值表示軌道被實時執行的概率增加,高于0.8的值提供了軌道運行的強烈可能性,(浮動)
      • 言語:在一個軌道上檢測口語的存在,更純粹的演講就像錄音(例如,脫口秀,有聲書,詩歌),屬性值越接近1.0,高于0.66的值描述了可能完全由口語構成的音軌,值在0.33到0.66之間,描述可能包含音樂和語音的曲目,無論是在部分還是分層,包括說唱音樂,低于0.33的值最有可能代表音樂和其他非語音類曲目,(浮動)
      • 顯式:檢測曲目中的顯式歌詞(真(1)=是的;假(0)=不,它沒有或未知),(布林值)
        說明:
      • duration_ms:軌道的持續時間(毫秒,(整數)
      • 流行:賽道的流行,值將在0到100之間,其中100是最受歡迎的,流行度是通過演算法來計算的,在很大程度上是基于賽道上的總播放次數和最近的播放次數,一般來說,現在播放頻率更高的歌曲將比過去播放頻率更高的歌曲更受歡迎,重復軌道(例如,同一曲目來自單一和專輯)是獨立的,藝術家和專輯的流行在數學上來源于曲目的流行,(整數)
      • 年份:軌道發布的年份,(1921年至2020年為整數)
      • release_date:軌道發布的日歷日期大多采用yyyy-mm-dd格式,但日期的精度可能會有所不同,有些只是作為yyyy給出的,
      • song_title(審查):軌道的名稱,運行軟體是為了洗掉歌曲標題中任何潛在的顯式單詞,
      • 計數:特定藝術家的歌曲數量表示在full_music_data.csv檔案中,(整數)

思路分析

D題理解
問題中心:音樂的影響
題目要求:
(1)根據附件資料influence_data,構建音樂人之間的定向網路模型,或許會根據不同的音樂派別劃分成多個子圖,進而做出描述性分析與可視化;構建影響力指標表示音樂人的影響程度,可以參考復雜網路、聚類思想中的有向加權度指標,
(2)根據附件資料full_music_data 探討不同流派音樂內部的相似性,可以參考聚類有效性評價指標DB、DUNN等,關鍵問題是需要我們構建相似性指標,
(3)分析不同類別音樂人或音樂之間的類內相似性差異,這些差異隨時間是如何變化的,不同類別的音樂人或派系之間是否存在互動(文化背景等因素所導致),
(4)分析不同派系的音樂中,影響者到連接者之間的影響力(Q1指標)是否存在明顯差異或共性,如7種音樂特性與5種人聲特征之間的規律,
(5)從資料中找出重大變革時間點,確定這些時間點的歷史背景,確定主要的特征以更有效地表示這些飛躍,找出相關巨大貢獻的藝術家,
(6)分析不同型別音樂隨時間變化的影響程序(內部音樂人互相影響、外部不同派系音樂之間的影響),提出綜合指標來表示這種影響隨時間的變化模式,
(7)該小問較難,一種可行的建議是從音樂人的作品資料(歌曲名、歌詞等)中提取文本資訊,獲取主題詞匯來表示時間、環境特征,
(8)模型推廣,進一步研究模型的運行模式,以適用于更豐富的音樂資料集等,
這道題交叉性強,發揮空間大,作業量重,但并不難理解,適合有初步編程基礎的同學下手,

詳細思路

音樂從一開始就是人類社會的一部分,是文化遺產的重要組成部分,為了理解音樂在人類集
體經驗中所扮演的角色,我們被要求開發一種量化音樂進化的方法,當藝術家創作一段新的音樂時,有許多因素會影響他們,包括他們天生的創造力,當前的社會或政治事件,使用新樂器或工具,或其他個人經歷,我們的目標是了解和衡量之前制作的音樂對新音樂和音樂藝術家的影響,
分析:題目中明確指出需要量化音樂,影響因素給出了天生的創造力,當前的社會或政治事件,使用新樂器或工具,或其他個人經歷,在建模時,除給出的因素外,應當考慮其他因素,比如共用幾種樂器,音樂人的年齡,音樂人的社會地位和在領域內的地位,藝術家所屬領域的熱門程度等,
目標是衡量之前制作的音樂對新音樂和音樂藝術家的影響,這里的之前制作的音樂是某藝術家之前制作的還是歷史所有的音樂暫未表明,所以可能需要大家選擇其中一個角度去建模,注意目標
是量化對新音樂、音樂藝術家(兩個目標,兩個模型)的影響,
一些藝術家可以列出十幾個甚至更多的其他藝術家,他們說他們影響了自己的音樂作品,
也有人認為,影響可以通過歌曲特征(如結構、節奏或歌詞)之間的相似程度來衡量,有時音
樂也會發生革命性的轉變,提供新的聲音或節奏,例如當一種新的流派出現,或現有流派的
重新發明(如古典、流行/搖滾、爵士等),這可能是由于一系列的小變化,藝術家的合作努力,一系列有影響力的藝術家,或社會內部的轉變,
分析:這段話的資訊量非常大,首先藝術家之間的影響可以用人物關系圖或知識圖譜(較難)
來分析,其中的相似程度可以利用相關分析,熱力圖來量化和展示,歌曲特征除了提到的結構、節奏或歌詞(在問題分析中會詳細說明如何量化),還可以添加一些自己想到的特征,
對于后半段話,題目可能會問革命性轉變的出現條件和概率,往往新的流派會較難出現,而重新發明會隨著藝術家和相關作品的增加而提高出現概率,
許多歌曲都有相似的聲音,許多藝術家為音樂流派的重大轉變做出了貢獻,有時這些變化
是由于一個藝術家影響另一個藝術家,有時是對外部事件(如世界重大事件或技術進步)的反應而產生的變化,通過考慮歌曲網路及其音樂特征,我們可以開始捕捉音樂藝術家對彼此的影響,也許,我們也可以更好地了解音樂是如何隨著社會的變遷而演變的,
分析:背景說到音樂流派的重大轉變是由于一個藝術家影響另一個藝術家或者外部事件(如世界重大事件或技術進步)的反應而產生的變化,這個是后面的模型建立需要的,后半段表示,題目可能會問到如何通過考慮歌曲網路及其音樂特征去量化音樂藝術家對彼此的影響,音樂是如何隨著社會的變遷而演變的,你的團隊已經被綜合集體音樂(ICM)協會確定為一個衡量音樂影響力的模型,這個問題要求你審視藝術家和流派的進化和革命趨勢,為了完成這個具有挑戰性的專案,ICM 協會要求您的團隊通過以下方式來探索音樂的演變,通過對音樂藝術家的影響來進行研究:
(1)使用 Influence_Data 資料集或其中的一部分創建音樂影響力的(多個)定向網路,其
中影響者連接到追隨者,開發引數來捕捉這個網路中的‘music influence’,通過創建定向影
響 者網路的子網路來探索音樂影響力的子集, 描述此子網, 在這個子網路中, 你的‘music
influence’指標揭示了什么?
分析:influence 的資料集分析見文末的 附1 資料集分析,這里僅闡述解題思路,(后面的問題類同)
此題僅需要influence 資料集即可,如果有能力可以在這里建立一個知識圖譜,實際此題的目
的是為了確定藝術家的音樂影響力,而建立所需要的定向網路就是讓influence 中的影響者藝
術家和追隨者藝術家之間產生映射聯系,
我給出的方法是首先添加資料列音樂領域始祖,也就是對所有資料進行溯源,如果追隨者和影響者的領域相同,找出影響者是追隨哪個影響者的,這個需要代碼實作,添加資料列影響人數,對于某一確定的影響者,找到被此影響者直接或間接影響的人數,做出領域人數表,計算出領域內的藝術家大師共有多少人,在相同領域,可以根據不同年份做可視化(折線圖最好),觀察并得出不同領域的巔峰年份(新生代人才最多的),這時,子網路引數就算建立好了,然后建立misic influence 模型,可以建立綜合評價模型(有很多,選擇其一),這里選用灰色綜合評價法,指標為此藝術家的影響人數,所在領域人數,所在領域年份人數,所在領域年份影響力排名(計算方法為:先篩選出藝術家所在領域此年份的所有人,然后根據影響人數進行排名),所在年份競爭力(這一年份的所有領域的藝術家總人數),(對于模型的求解程序,在論文中以一個領域的一個年份進行展示即可)
(2)使用 FULL_MUSIC_DATA 或音樂特征的兩個匯總資料集(具有藝術家和年份)來開發
音樂相似性度量模型,用你的衡量標準,流派內的藝術家比流派間的藝術家更相似嗎?
分析:這里選用 FULL_MUSIC_DATA 資料集和第一問用到的資料集進行分析,題目的要求是開發音樂相似性度量模型,并判斷是否流派內的藝術家比流派間的藝術家更相似,
由于指標很多,可以利用兩種方法進行處理,1 可以利用相關分析探究各指標與受歡迎程度之間的相關關系,將相關性低的幾個指標剔除, 2 可以利用主成分分析對資料進行降維
對于音樂相似性度量模型,需要用到FULL_MUSIC_DATA 資料集,關于如何處理資料集在文末附1,音樂相似性主要指的是兩個音樂之間的相似程度,再對資料集進行資料清洗之后,可以用代碼計算出音樂間的相似程度,常用皮爾遜相關系數和余弦相似度,可以看看下面的博客https://blog.csdn.net/weixin_39050022/article/details/80732249
除此之外,可以對其進行可視化,畫出相關關系熱力圖,可以直觀反映音樂間的相似性(挑6-10 個左右的歌曲即可,在論文中進行展示)
針對后一問,根據藝術家所屬流派,對于藝術家進行聚類分析(DBSCAN 或者kmeans)查看流派內的藝術家與流派見的藝術家的相關關系,聚類分析展示出的圖(不同流派用不同顏色的點)可以直觀反映流派間與流派內的關系,
(3)比較流派之間和流派內部的相似之處和影響,流派的區別是什么?流派是如何隨著時
間的推移而􀀀變化的?有些流派與其他流派有關聯嗎?
分析:進一步對第二問的結果進行資料挖掘,這一問前半問很簡單,除了前一問的結果外,查閱一點文獻,加上一些資料分析就可以了,
對于流派是如何隨著時 間的推移而變化的,可以針對某一流派進行闡述,第一問介紹了時間推移此領域的新生代人數,除此之外也可以看這一領域此年份的發歌量,可以做折線圖來看一個流派的興衰,然后根據一些重要的時間節點,比如拐點或者增長率很高或很低的節點,查看FULL_MUSIC_DATA 資料集中對應的時間內,此領域或者樂壇發生了什么變化,是否有很著名的歌曲,或者由于別的領域火熱,導致此領域人數,歌曲變少了,這里可以自行發揮,語文建模大家都很擅長haha,針對有些流派與其他流派是否有關聯,可以看同一藝術家是否在不同流派發表了歌曲,或者不
同藝術家之間的影響關系(Influence_Data 資料集),
(4)說明 DATA_influence 資料集中報告的相似性資料是否表明識別出的影響者實際上影
響了各自的藝術家,“有影響力的人”真的會影響追隨者創作的音樂嗎?是某些音樂特征比其
他特征更具“感染力”,還是它們在影響某個特定藝術家的音樂方面都扮演著相似的角色?
分析:對于前半問,“有影響力的人”真的會影響追隨者創作的音樂嗎?答案是肯定的,因為
后半問在問前半問肯定回答后的結論,
前半問需要大家發動自己的智慧,只要扯上關系證明真的會影響即可,對于后半問,可以針對性地做驗證分析,某些音樂特征比其他特征更具“感染力”,可以參考前文說的相關性分析,也就是在FULL_MUSIC_DATA 資料集中利用相關分析探究各指標與受歡迎程度之間的相關關系,相關性更高,表示更有感染力,它們在影響某個特定藝術家的音樂方面都扮演著相似的角色,這個可以對一個有名的藝術家進行探討,針對不同的指標,查看影響者與被影響者之間指標的相似程度,可以搞一個對比圖、南丁格爾玫瑰圖或者雷達圖(后兩個更好一點,在進階思路中給出畫的軟體和方法),最后進行資料分析,
(5)從這些資料中找出音樂演程序序中是否有可能革命性(重大飛躍)的特征?在您的網路
中,哪些藝術家代表變革者(重大變革的影響者)?
分析:這個在前面的分析中說到了,就是觀察折線圖的拐點或者增長率很高或很低的節點,然后針對這一節點,分析為什么會出現這樣的情況,將這一時期的藝術家和作品都列出來,查看作品的各個指標有什么比較突出的特點(突出不突出,就和所有作品的平均值做對比,與平均值差距很大則代表很突出),這樣的特點就是題目中描述的革命性(重大飛躍)的特征
對于后半問就需要大家根據已有的結論自己尋找了,有了前面的基礎(第一問的影響力不要忘了),這個很簡單,對于這道題的結果可以以表格的形式呈現,可以看看突出顯示表,畫出來效果很好看,
(6)分析一種流派中隨著時間發生的音樂演變的影響程序,您的團隊能否確定能夠揭示動
態影響者的指標,并解釋流派或藝術家如何隨著時間的推移而􀀀變化?
分析:這道題需要根據前面自己的結論得出答案,這里提示幾點:1 每一個流派都有自己很突出的幾個指標,將這幾個指標找出來, 2 動態影響者的指標一定是更突出的,可以將歡迎程度作為重要指標, 3 對于單個藝術家,可以看看根據歷史推移,做了哪些改變,歌曲的指標發生了什么變化, 4 語文建模題,加油!
(7)你的作業如何表達音樂在時間或環境中對文化的影響?或者,如何在網路中識別社會、政治或技術變化(如互聯網)的影響?
分析:此問的目標是,如何在網路中識別音樂對社會、 政治或技術變化(如互聯網)的影響,這一問可以參考大量文獻和新聞,語文建模題,
這里提供一些我的想法,對于社會和政治而言,在和平穩定的年代與戰爭年代的歌曲特征是不一樣的,冷戰、二戰、工業革命、互聯網的高速發展可能對音樂有很大的影響,同樣音樂也對這些歷史事件有所影響,互聯網的出現影響了音樂播放的形式,特別是現在的電子音樂對于以前的傳統媒介,比如唱片機等影響很大,科學技術的發展可能也會導致人們對于音樂領域的愛好有所差異,向ICM 協會寫一份一頁紙的檔案,說明使用你的方法通過網路了解音樂影響的價值,考慮到這兩個問題資料集僅局限于某些型別,隨后又局限于這兩個資料集所共有的藝術家,你的作業或解決方案將如何隨著更多或更豐富的資料而改變?建議進一步研究音樂及其對文化的影響,
ICM 協會,一個來自音樂,歷史,社會科學,技術和數學領域的跨學科和多樣化的團體,
期待你的最終報告,
寫信這個是美賽的絕活,大家總結一下論文就好,內容在1-2 頁都可以,注意信的格式,
還有就是信可以在目錄后寫,也可以在附錄前寫,可以參考以前的o獎論文,
不超過25 頁的PDF 解決方案應該包括:?一頁摘要表,
?目錄,
?您的完整解決方案,
?給ICM 協會的一頁檔案,
?參考串列,
問題分析的重要修正:在一開始我是從題目開始看,用到什么資料集就去看看資料集,導致兩個資料集沒有看到,從第三問開始,大家根據那兩個資料集可以減少一些我思路的難度,不過大體方向我的思路是沒問題的,后幾問我寫了需要算的東西,其實在那兩個資料集里面會有,
附1 附1 資料集分析
資料集來源:
1 代表音樂領域的影響者和追隨者,這不僅來自藝人自己的報道,也來自行業專家的觀點,
這些資料包含了過去90 年里5854 位藝術家的影響者和追隨者,
2“full_music_data”2 為98,340 首歌曲提供16 個變數條目,包括舞蹈性、節奏、響
度和鍵等音樂功能,以及每種歌曲的artist_name和artist_id,這些資料用于創建兩個
匯總資料集,包括:
a.藝術家“data_by_artist”的平均值,
b.表示年份“data_by_year”,
1 這些資料是從AllMusic.com上搜集來的
2 這些資料來自Spotify的API
注意:這些檔案中提供的資料是更大資料集的子集,這些檔案包含您應該用于解決這個
問題的唯一資料,
分析:這段話表明不可以另外找資料,必須得用美賽提供的D題資料,下面對每個
資料集進行分析,
influence_data.csv
資料集的指標分析:
influencer_id:影響者藝術家的標識號,部分可能是字串資料型別,應全改為整數型別后再對資料集進行
后續處理,
influencer_name:影響者藝術家的姓名,一個id對應一個姓名
influencer_main_genre: 影響者藝術家的音樂流派,
influencer_active_start: 影響者藝術家開始音樂生涯的年份,
follower_id: 追隨者藝術家的標識號,部分可能是字串資料型別,應全改為整數型別后再對資料集進行后續處理,
follower_name:追隨者藝術家的名字,
follower_main_genre: 追隨者藝術家的音樂流派,
follower_active_start: 追隨者藝術家音樂生涯的年份,
資料集的資料預處理:
首先剔除有空值的資料,這些資料是不完整的,不利于資料分析與建模,對于id和姓名
不對應的資料也應剔除,是例外資料,對于影響者開始音樂生涯的年份晚于追隨者藝術家
音樂生涯的年份的資料也要剔除,是例外資料,
2. full_music_data.csv
資料集的指標分析:
artist_names:藝術家的姓名
artists_id:藝術家的標識號
danceability:衡量此音樂是否適合跳舞的指標,0 最不適合跳舞,1為最適合跳舞
energy:一種表示對強度和活動性的感知的量度,值為 0.0 表示最不充滿活力,值為 1.0 表示最強烈/充滿
活力,通常,充滿活力的曲目給人的感覺是快速、響亮和嘈雜,例如,死 亡金屬的能量很高,而巴赫的前
奏曲在音階上得分很低,影響這一屬性的感知特征包括動態 范圍、感知響度、音色、起始率和總熵,
Valence:描述一首曲目所傳達的音樂積極程度的一種衡量標準,值 0.0 表示最負,值 1.0 表 示最正,高
價的曲目聽起來更積極(如高興、歡快、歡快),而低價的曲目聽起來更消極(如悲 傷、沮喪、憤怒),
tempo: 曲目的總體估計速度,以每分鐘節拍(BPM)為單位,在音樂術語中,節奏是給定樂曲 的速度或節奏,
直接從平均拍子時長得出,
loudness: 音軌的整體響度,以分貝(DB)為單位,值的典型范圍在-60 到 0 db 之間,響度值 是整個音軌的
平均值,對于比較音軌的相對響度很有用,響度是聲音的性質,它是物理強度 (振幅)的主要關聯,
mode: 曲目的模態(大調或小調)、旋律內容來源的音階型別的指示,主要由 1 表示,次要為 0, key:估計
的音軌的整體數值, 為使用標準音調等級記法映射到音調的整數, 例如, 0=C, 1=C?/D?,2=D,依此
類推,如果未檢測到 key 值,則的值設定為-1,
acousticness: 音軌是否是聲學的置信度測量(沒有技術增強或電子放大),值 1.0 表示音軌的 可信度很高,
instrumentalness: 預測曲目是否不包含人聲,在這種情況下,“噢”和“啊”的聲音被視為器樂, 說唱或有聲歌曲顯然是“有聲的”,器樂度值越接近 1.0,曲目中不包含聲音內容的可能性就 越大,高于 0.5 的值用于表示樂器音軌,但隨著該值接近 1.0,置信度會更高,
liveness: 檢測曲目中是否有觀眾,活躍度值越高,表示實時執行曲目的概率越高,如果值 大于 0.8,則表示音軌處于活動狀態的可能性很大,
speechiness:檢測音軌中是否存在口語單詞,越是專門的演講——比如錄音(例如脫口秀、有 聲讀物、詩歌),屬性值越接近 1.0,大于 0.66 的值描述可能完全由口語單詞組成的曲目, 介于 0.33 和 0.66 之間的值描述可能同時包含音樂和語音的曲目(分段或分層),包括說唱音 樂等情況,低于 0.33 的值很可能表示音樂和其他非語音軌道,
explicit:檢測曲目中的顯式歌詞(TRUE(1)=是,是;FALSE(0)=否,不是或未知),
duration_ms: 音軌的持續時間,以毫秒為單位,
popularity:這條音軌的受歡迎程度,該值將介于 0 和 100 之間,其中 100 是最受歡迎的, 人氣是通過演算法計算的,并且在很大程度上是基于曲目已經播放的總次數和這些播放的最近 程度,一般來說,現在播放 頻率較高的歌曲會比過去播放頻率較高的歌曲更受歡迎, 重復的曲目(例如,來自單曲和專輯的相同曲目)是獨立評級的,藝術家和專輯的受歡迎程度 是從曲目受歡迎程度定量推匯出來的,
year: 發行曲目的年份,(1921 年至 2020 年的整數)
release_date: 發行曲目的日期大多采用 yyyy-mm-dd 的格式,但是日期的精度可能會有所不 同,有些只是以 yyyy 給出,
song_title (censored): 曲目的名稱,(字串) 歌曲標題中任何潛在的明確單詞已經被程式刪 除,
count:特定藝術家的歌曲數量在 full_music_data.csv 檔案中表示, 資料預處理及資料分析
可以看到這個資料集的指標還蠻多的,里面有字串、整型、布爾型、浮點型等,為了第
二問量化模型,需要對這些資料進行統一處理,
首先,為了統一標準,將整形,布爾型統一變為0 到1 之間的浮點型,其中對于不是0
到1 的資料,需要用到資料的標準化將資料映射到0-1 之間,標準化不僅可以有利于模
型的建立,而且可以消除量綱對資料的影響,
對于發行日期,由于release_date列有的是年份,有的是年月日,所以在資料分析時將
此列剔除,保留year 列,
對于song title,可以添加歌名單詞數這列,將其作為影響指標之一,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/257412.html

標籤:其他

上一篇:沒能在年前離職,很難受……在這個小廠干了兩年的 Android 開發,我好累

下一篇:AMEsim16安裝啟動后加載液壓模塊與車輛動力學模塊

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more