《目錄》
概念
- 隨機變數
- 數學期望
- 方差
- 標準差
概率分布
- 正態分布
- 冪律分布
我想拿一張白紙,把這些內容都寫下來,不過,這一張紙不是數學公式,我想給你一個直觀的解釋,以及知識點之間的邏輯鏈條,
概念
隨機變數
通俗地講,隨機變數就是一個隨機的數,它是對任何的“隨機的東西”做的量化,
隨機的物件可以是任何東西--明天的天氣可以是晴、陰、雨,扔硬幣的結果可以是正面或者反面,這里本身都沒有數字,但是我們要借助概率論來研究它們,而概率論是數學的一部分,要用到數學語言,那么總是寫“明天是晴天的概率”就很不方便,于是我們可以把晴、陰、雨貼上標簽,叫做0、1、2,而后把明天的天氣狀況用一個字母X來表示,于是“明天下雨”就變成了“X=2”,
這樣,這個原本沒有數字的隨機結果就變成了一個可能的取值為0、1、2的亂數,這就是隨機變數,
數學期望
對長期價值的數字化衡量,或者說,每當要判斷一件事的長期價值,數學期望就是一個指標,
在NBA這個世界最頂級的籃球聯賽中,不少球隊是照魔球理論建隊的,比如說,火箭隊的莫雷,在庫里,已經開始了魔球計劃,
魔球理論:打籃球🏀有三種得分方式,
- 籃下、中距離、三分球,假設你投中的概率分別是 55%、45%、35%,
那從長期來看,哪種進攻方式比較好?
- 籃下:2 x 55% + 0 x 45% = 1.1分;
- 中距離:2 x 45% + 0 x 55% = 0.9分;
- 三分球:3 x 35% + 0 x 65% = 1.05分,
籃下進攻和三分球的數學期望比中距離都要高,所以盡可能多進攻籃下和投三分球,少投中距離,長期來看就是更有效率的選擇,
執行這個方案:
- step-1:研究規則制定最佳策略
通常情況下,最佳當然是藍下進攻,但隨著外線體毛級規則的改變、特定底角、45度腰部三分戰術的成熟、全體成員三分球命中率的提升等等,這些提高了三分戰術的數學期望,所以最佳策略是三分球,
- step-2:用大資料和人工智能制定戰術,訓練時讓大家習慣機器制定的最優戰術,
這樣培養出來的人,就有三分球史詩級命中率的庫里,
但三分戰術也不是萬能的,它的數學期望還沒有到碾壓中距離,同時三分戰術的興起,也會改變外線防守強度,忽視中距離的方式,導致中距離命中率會提高,數學期望又會發生變化,
所以對個體來說,不同的球員,更“合理”的戰術是根據自己的命中率,比如,林書豪……中距離投的就很歡,因為對他來說,籃下得分的數學期望不斷下降(身體素質下降、聯防規則、無禁區三秒),而中距離都快成他的主要陣地戰得分手段了,
游戲平衡:像王者榮耀一樣的MOBA游戲,經常會出新英雄,這些新英雄剛出現的時候往往比較變態,
為了保證游戲的公平性和可玩性,游戲開發者就得平衡英雄,程序大概是這樣,會不斷的調整新英雄的屬性(攻擊、暴擊、血條),其實就是在調整新英雄的數學期望,爭取長期平衡,
在金融里,金融產品是否值得長期投資,也可以用數學期望來衡量,
假如你只有10萬元,想投資某專案,估計成功概率為30%,可以盈利8萬元;失敗機會為70%,屆時會虧損2萬元,還可以選擇存入銀行,獲取5%的固定收益,
問,是應該投資,還是存入銀行?
我們筆算一下,投資回報率是10%,存銀行的回報率是5%,所以我們應該選投資是吧,
其實應該存銀行,因為這算出來的是平均收益,對于一次投資而言存在虧損的風險,因為我們只有這10萬塊錢,這10萬元我輸不起,這個生意恐怕就不能做,可以選擇穩妥的銀行固定收益,
也就是說,算出期望不是說一定可以賺錢,但只要輸得起,長期堅持投資不同的、期望為正的專案,大概率是會不斷盈利的,
方差
方差,反映的是隨機結果圍繞數學期望的波動范圍,
學會了計算期望,就能清楚的衡量一件事的價值、指導我們決策了嗎?
答案是,不能,
比如,過河,
假如您的身高是 1米8,河水平均深度 1米3(已知期望),那我們是不是就可以直接走過去了呢?
看起來是安全的,但是下去遇到水中的深坑就淹死了,
所以我們還需要知道河水的深度范圍,比如說1米3±0.2米,那么就是安全的,最深就是1米5,最淺是1米1,
當我們知道河的平均深度(均值/數學期望)后,再知道深度范圍(方差)才能做出是否過河的決策,
標準差
標準差與方差是完全相關的,因為標準差就是方差的√平方根,
概率分布
概率分布代表了一個事件的變化規律,
現實世界里,影響一個事件的各種因素,不可能完全是理想狀態下的相互獨立,而是相互交纏、互相影響的,所以一切都還在演化的路上,所以我們身邊存在各種各樣的其他分布,
常見的有幾十種,像正態分布、冪律分布、泊松分布、指數分布、對數分布都是其中的一種,不過這個數字肯定會越來越大,因為數學家還在針對不同的現象、不同的變化特征,發現和發明新的模型,
正態分布
可以看一下您的電腦開機時間,比如我電腦顯示的是:電腦開機時間 8 秒,打敗全國 99% 的用戶,
打敗全國 99% 的用戶,表達的很直觀,但這個排名并不是通過收集所有資料進行排序得出來的排名,而是通過隨機抽取一部分用戶的開機資料,算出均值和標準差,構建一個正態分布模型,只要比較開機時間和均值的差距,就知道距離均值有多少個標準差,這也就知道了你的排名,
比如,一組電腦的開機時間資料:{ 5, 6, 8, 9 } ,
step-1:計算均值(期望)
- (5+6+8+9) / 4 = 7,均值是 7,
step-2:計算標準差
- √0.25*{(5-7)*(5-7)+(6-7)*(6-7)+(8-7)*(8-7)+(9-7)*(9-7)} = √10/√4 = 1.58,標準差是1.58,
在正態分布中,1個標準差是 68.2%,2個標準差是 95.4%,3個標準差是 99.7%,6個標準差是 99.99966%,
而我們得到的 1.58 是在 1個標準差外,也就是說,電腦開機時間至少打敗了全國 68.2% 的用戶,
英語的四六級峰值是500分,425是樣本學校排名85%的分數,這個邏輯也是一樣,就是用正態分布構建標準分數... ...
在現實生活中,很多事情都是多個隨機因素共同作用的結果,比如,影響考試成績的因素也很多,自身的能力、家庭教育、智商、專注力,甚至考前的情緒、身體狀況等也都有影響,但當這些因素加在一起,考試成績就服從正態分布,
只要是多個隨機因素共同作用下,無論是對數分布還是冪律分布,無論是指數分布還是其他任何分布,只要自身不斷演化,不斷自己疊加自己,最終也一樣會變成正態分布……所有的分布,不是正態分布,就是在變成正態分布的路上,
冪律分布
為什么我們會用高考的平均成績,衡量一所高中的教學質量?為什么我們會用平均收益率,衡量一家基金公司的好壞?因為高考成績和基金公司的收益,是服從正態分布的,
正態分布是一種均勻對稱分布,大多數資料都集中在平均值附近,所以平均值非常有用,因為它代表大多數,
而冪律分布呢?它的資料變化幅度非常大,平均值毫無意義,
2010年全球最有錢的388人的財富總量,相當于世界一半人口35億貧困人口的財富總量,到2014年這388人變成了85人,到2017年這85人變成了8個人,
80%的財富集中在20%的人手里,這種一頭全有,一頭全無的情況,平均值毫無意義,
目前,科學家們一直致力于冪律分布的研究,比如著名的“沙堆模型”,在平臺上不斷添加沙粒,慢慢形成一個沙堆,隨著沙堆高度的增加,新添加的沙粒會帶動沙堆表面其他沙粒滾落,產生所謂的“沙崩”,
統計沙崩的規模和發生的頻率,科學家發現它服從冪律分布,所有物理知識我們都掌握,而且能用計算機跟蹤每一粒沙子的位置,但仍然找不到沙堆崩塌的原因(冪律分布產生的原因),
我們既不知道在什么條件下,再放一粒沙子就會導致沙崩,也無法預測這粒沙子導致的沙崩規模會有多大,所以到目前,我們對于冪律分布(各種自然災害),基本還是束手無策,
無法預測冪律分布,意味著我們只知道大災難影響很大,而且一定會來,卻不知道下一場大地震、下一場森林大火、下一場戰爭、下一次金融危機會什么時候發生,以及會帶來多大的損失,
以上這些都是概率分布的作用:體現現實世界的規律,甚至我們可以使用分布來預測某個隨機變數,除此之外,它還可以拿來檢驗假說,就是當有人提出一個假說的時候,我們最終可以通過概率分布,來檢驗他這個假說到底靠譜不靠譜,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/227866.html
標籤:其他
