隨機變數及其概率分布-有解無憂

《目錄》

概念

隨機變數
數學期望
方差
標準差

概率分布

正態分布
冪律分布

我想拿一張白紙，把這些內容都寫下來，不過，這一張紙不是數學公式，我想給你一個直觀的解釋，以及知識點之間的邏輯鏈條，

概念

隨機變數

通俗地講，隨機變數就是一個隨機的數，它是對任何的“隨機的東西”做的量化，

隨機的物件可以是任何東西--明天的天氣可以是晴、陰、雨，扔硬幣的結果可以是正面或者反面，這里本身都沒有數字，但是我們要借助概率論來研究它們，而概率論是數學的一部分，要用到數學語言，那么總是寫“明天是晴天的概率”就很不方便，于是我們可以把晴、陰、雨貼上標簽，叫做0、1、2，而后把明天的天氣狀況用一個字母X來表示，于是“明天下雨”就變成了“X=2”，

這樣，這個原本沒有數字的隨機結果就變成了一個可能的取值為0、1、2的亂數，這就是隨機變數，

數學期望

對長期價值的數字化衡量，或者說，每當要判斷一件事的長期價值，數學期望就是一個指標，

在NBA這個世界最頂級的籃球聯賽中，不少球隊是照魔球理論建隊的，比如說，火箭隊的莫雷，在庫里，已經開始了魔球計劃，

魔球理論：打籃球🏀有三種得分方式，

籃下、中距離、三分球，假設你投中的概率分別是 55%、45%、35%，

那從長期來看，哪種進攻方式比較好？

籃下：2 x 55% + 0 x 45% = 1.1分；
中距離：2 x 45% + 0 x 55% = 0.9分；
三分球：3 x 35% + 0 x 65% = 1.05分，

籃下進攻和三分球的數學期望比中距離都要高，所以盡可能多進攻籃下和投三分球，少投中距離，長期來看就是更有效率的選擇，

執行這個方案：

step-1：研究規則制定最佳策略

通常情況下，最佳當然是藍下進攻，但隨著外線體毛級規則的改變、特定底角、45度腰部三分戰術的成熟、全體成員三分球命中率的提升等等，這些提高了三分戰術的數學期望，所以最佳策略是三分球，

step-2：用大資料和人工智能制定戰術，訓練時讓大家習慣機器制定的最優戰術，

這樣培養出來的人，就有三分球史詩級命中率的庫里，

但三分戰術也不是萬能的，它的數學期望還沒有到碾壓中距離，同時三分戰術的興起，也會改變外線防守強度，忽視中距離的方式，導致中距離命中率會提高，數學期望又會發生變化，

所以對個體來說，不同的球員，更“合理”的戰術是根據自己的命中率，比如，林書豪……中距離投的就很歡，因為對他來說，籃下得分的數學期望不斷下降（身體素質下降、聯防規則、無禁區三秒），而中距離都快成他的主要陣地戰得分手段了，

游戲平衡：像王者榮耀一樣的MOBA游戲，經常會出新英雄，這些新英雄剛出現的時候往往比較變態，

為了保證游戲的公平性和可玩性，游戲開發者就得平衡英雄，程序大概是這樣，會不斷的調整新英雄的屬性（攻擊、暴擊、血條），其實就是在調整新英雄的數學期望，爭取長期平衡，

在金融里，金融產品是否值得長期投資，也可以用數學期望來衡量，

假如你只有10萬元，想投資某專案，估計成功概率為30%，可以盈利8萬元；失敗機會為70%，屆時會虧損2萬元，還可以選擇存入銀行，獲取5%的固定收益，
問，是應該投資，還是存入銀行？

我們筆算一下，投資回報率是10%，存銀行的回報率是5%，所以我們應該選投資是吧，

其實應該存銀行，因為這算出來的是平均收益，對于一次投資而言存在虧損的風險，因為我們只有這10萬塊錢，這10萬元我輸不起，這個生意恐怕就不能做，可以選擇穩妥的銀行固定收益，

也就是說，算出期望不是說一定可以賺錢，但只要輸得起，長期堅持投資不同的、期望為正的專案，大概率是會不斷盈利的，

方差

方差，反映的是隨機結果圍繞數學期望的波動范圍，

學會了計算期望，就能清楚的衡量一件事的價值、指導我們決策了嗎？

答案是，不能，

比如，過河，

假如您的身高是 1米8，河水平均深度 1米3（已知期望），那我們是不是就可以直接走過去了呢？

看起來是安全的，但是下去遇到水中的深坑就淹死了，

所以我們還需要知道河水的深度范圍，比如說1米3±0.2米，那么就是安全的，最深就是1米5，最淺是1米1，

當我們知道河的平均深度（均值/數學期望）后，再知道深度范圍（方差）才能做出是否過河的決策，

標準差

標準差與方差是完全相關的，因為標準差就是方差的√平方根，

概率分布

概率分布代表了一個事件的變化規律，

現實世界里，影響一個事件的各種因素，不可能完全是理想狀態下的相互獨立，而是相互交纏、互相影響的，所以一切都還在演化的路上，所以我們身邊存在各種各樣的其他分布，

常見的有幾十種，像正態分布、冪律分布、泊松分布、指數分布、對數分布都是其中的一種，不過這個數字肯定會越來越大，因為數學家還在針對不同的現象、不同的變化特征，發現和發明新的模型，

正態分布

可以看一下您的電腦開機時間，比如我電腦顯示的是：電腦開機時間 8 秒，打敗全國 99% 的用戶，

打敗全國 99% 的用戶，表達的很直觀，但這個排名并不是通過收集所有資料進行排序得出來的排名，而是通過隨機抽取一部分用戶的開機資料，算出均值和標準差，構建一個正態分布模型，只要比較開機時間和均值的差距，就知道距離均值有多少個標準差，這也就知道了你的排名，

比如，一組電腦的開機時間資料：{ 5, 6, 8, 9 } ，

step-1：計算均值（期望）

(5+6+8+9) / 4 = 7，均值是 7，

step-2：計算標準差

√0.25*{（5-7）*（5-7）+（6-7）*（6-7）+（8-7）*（8-7）+（9-7）*（9-7）} = √10/√4 = 1.58，標準差是1.58，

在正態分布中，1個標準差是 68.2%，2個標準差是 95.4%，3個標準差是 99.7%，6個標準差是 99.99966%，

而我們得到的 1.58 是在 1個標準差外，也就是說，電腦開機時間至少打敗了全國 68.2% 的用戶，

英語的四六級峰值是500分，425是樣本學校排名85%的分數，這個邏輯也是一樣，就是用正態分布構建標準分數... ...

在現實生活中，很多事情都是多個隨機因素共同作用的結果，比如，影響考試成績的因素也很多，自身的能力、家庭教育、智商、專注力，甚至考前的情緒、身體狀況等也都有影響，但當這些因素加在一起，考試成績就服從正態分布，

只要是多個隨機因素共同作用下，無論是對數分布還是冪律分布，無論是指數分布還是其他任何分布，只要自身不斷演化，不斷自己疊加自己，最終也一樣會變成正態分布……所有的分布，不是正態分布，就是在變成正態分布的路上，

冪律分布

為什么我們會用高考的平均成績，衡量一所高中的教學質量？為什么我們會用平均收益率，衡量一家基金公司的好壞？因為高考成績和基金公司的收益，是服從正態分布的，

正態分布是一種均勻對稱分布，大多數資料都集中在平均值附近，所以平均值非常有用，因為它代表大多數，

而冪律分布呢？它的資料變化幅度非常大，平均值毫無意義，

2010年全球最有錢的388人的財富總量，相當于世界一半人口35億貧困人口的財富總量，到2014年這388人變成了85人，到2017年這85人變成了8個人，

80%的財富集中在20%的人手里，這種一頭全有，一頭全無的情況，平均值毫無意義，

目前，科學家們一直致力于冪律分布的研究，比如著名的“沙堆模型”，在平臺上不斷添加沙粒，慢慢形成一個沙堆，隨著沙堆高度的增加，新添加的沙粒會帶動沙堆表面其他沙粒滾落，產生所謂的“沙崩”，

統計沙崩的規模和發生的頻率，科學家發現它服從冪律分布，所有物理知識我們都掌握，而且能用計算機跟蹤每一粒沙子的位置，但仍然找不到沙堆崩塌的原因（冪律分布產生的原因），

我們既不知道在什么條件下，再放一粒沙子就會導致沙崩，也無法預測這粒沙子導致的沙崩規模會有多大，所以到目前，我們對于冪律分布（各種自然災害），基本還是束手無策，

無法預測冪律分布，意味著我們只知道大災難影響很大，而且一定會來，卻不知道下一場大地震、下一場森林大火、下一場戰爭、下一次金融危機會什么時候發生，以及會帶來多大的損失，

以上這些都是概率分布的作用：體現現實世界的規律，甚至我們可以使用分布來預測某個隨機變數，除此之外，它還可以拿來檢驗假說，就是當有人提出一個假說的時候，我們最終可以通過概率分布，來檢驗他這個假說到底靠譜不靠譜，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/227866.html

標籤：其他

上一篇：中國大學MOOC-陳越、何欽銘-資料結構-起步能力自測題筆記

下一篇：牛批！清華畢業的Java大牛用一個坦克大戰游戲專案來演示設計模式