主頁 > 軟體設計 > 機器學習 線性回歸分析和預測棒球比賽資料

機器學習 線性回歸分析和預測棒球比賽資料

2020-11-11 22:16:52 軟體設計

要成為自己的光呀

文章目錄

  • 一、查看資料
  • 二、線性回歸分析與預測

  • 對 baseball_02.csv 里面的資料進行分析,并利用 sklearn 的線性回歸模型預測球隊的表現
  • 有關MLB的詳細資訊,請參閱以下中文維基百科頁面: https://bk.tw.lvfukeji.com/wiki/MLB 你也可以看電影《金錢球》,了解奧克蘭田徑隊是如何利用分析來重塑棒球隊的管理的
  • 分析和代碼測驗是在 jupyter notebook 環境中進行的

一、查看資料

# 匯入需要用到的包
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn import linear_model
%matplotlib inline
# 讀取資料  查看前5行資料
baseball = pd.read_csv('baseball_02.csv')
baseball.head(5)

分析時需要用到的欄位含義

  • RS:run scored 得分
  • RA:run allowes 失分
  • W:win 獲勝次數
  • OBP上壘率/打者不出局率:安打數+保送數+觸身球數/打數+保送數+觸身球數
  • SLG長打率/衡量打者長打能力:一壘打數+二壘打數2+三壘打數3+全壘打數*4/該打者的打數
  • BA打擊率:安打數/打數
  • Playoffs 季后賽:0:未進入季后賽 1:進入季后賽
  • OOBP:對手的基本百分比
  • OSLG:對手的重擊百分比

二、線性回歸分析與預測

第一個預測問題是
一支球隊要在常規賽中贏多少場才能進入季后賽?
現在,你可以將常規賽簡化成一道數學題,利用1995年至2001年的資料繪制散點圖,

# 分組  進入季后賽 與 未進入季后賽分組 統計各自最小的勝投次數
baseball.groupby('Playoffs').min()['W']

從歷史資料來看,要進入季后賽,至少需要贏 82 場

# 條件篩選 從1995年至2001年且進入季后賽的隊伍  統計這些隊伍的獲勝次數  散點圖可視化
baseball2 = baseball[baseball["Year"]>=1995].copy()
baseball2 = baseball2[baseball2["Year"]<=2001].copy()
baseball2 = baseball2[baseball2["Playoffs"]==1].copy()
plt.figure(figsize=(12, 8), dpi=120)
mpl.rcParams['font.family'] = 'SimHei'
plt.style.use('ggplot')
plt.scatter(range(baseball2.shape[0]),baseball2["W"],color='red')
plt.xlabel('各個隊伍')
plt.ylabel('勝投數')
plt.savefig('test_01.png')
baseball2.shape     # (48, 15)

從散點圖容易看出,有一個最小值82,但大部分散點在 85 以上,所以一支球隊要在常規賽中獲勝 85 場以上,進入季后賽的概率很大,

思考一個團隊如何才能取得 X 場勝利
當一個隊的得分比對手多時,它就會獲勝,但是,球隊要贏了多少次?
使用一個線性回歸模型,回答一個問題:如何能使一個球隊獲勝,在常規賽中,它的得分需要比失分多多少分?
首先,您只使用2002年以前的資料

baseball2 = baseball[baseball["Year"]<=2002].copy()
baseball2.head()

為了使問題更簡單,您可以創建一個變數來保存球隊得分和球隊失分的差,
然后,您可以將該變數用作線性回歸模型中的單個自變數,因變數是獲勝次數,

baseball2["newVar"] = baseball2["RS"] - baseball2["RA"]
reg1 = linear_model.LinearRegression()
# 球隊得分和球隊失分的差
x = baseball2["newVar"].values.reshape(-1,1)
# 獲勝次數
y = baseball2["W"].values.reshape(-1,1)
reg1.fit(x,y)
yPred = reg1.predict(x)
# 預測至少勝 85 場進季后賽  在常規賽中,球隊的得分需要比失分多89.858009分
predict_sample = reg1.predict([[85]])
print(predict_sample[0][0])

plt.figure(figsize=(12, 8), dpi=120)
plt.rcParams['axes.unicode_minus']=False  # 用于解決不能顯示負號的問題
plt.clf()
# fig,ax = plt.subplots(1,1)
plt.scatter(x,y,label="true",color='blue')
plt.scatter(x,yPred,label="pred",color='red')
plt.xlabel('得分與失分之差')
plt.ylabel('獲勝次數')
plt.savefig('test_02.png')   # 保存圖片
plt.legend()   # 顯示圖例

根據擬合的線性回歸模型,如果一支球隊想要贏得 85 場勝利,它球隊的得分比失分需要多大約 90 分,

現在,從上面的線性回歸模型中,你知道一個團隊應該比它允許的 X 勝是多少次,
從本質上講,一支球隊的得分應該超過它允許的獲勝次數,接下來,我們要預測球隊的得分和允許的失分,
關于得分,假設兩個棒球統計資料比其他任何東西都重要:
(1)上壘百分比(OBP):玩家在壘上的時間百分比(包括步行)
(2)重擊百分比(SLG):玩家在回合中繞壘的距離(測量力量)
(3)對于你的回歸模型,你還包括另一個變數,(BA):擊球得分

# 運行一個帶有上述三個變數的線性回歸模型來預測得分
x = baseball2[["OBP","SLG","BA"]].values.reshape(-1,3)
y = baseball2[["RS"]].values.reshape(-1,1)
reg2 = linear_model.LinearRegression()
reg2.fit(x,y)
yPred = reg2.predict(x)
baseball2["3var_pred"] = yPred
baseball2[["OBP","SLG","BA","RS","3var_pred"]].head()

# 運行另一個只有兩個變數的線性回歸模型,OBP和SLG
x = baseball2[["OBP","SLG"]].values.reshape(-1,2)
y = baseball2[["RS"]].values.reshape(-1,1)
reg3 = linear_model.LinearRegression()
reg3.fit(x,y)
yPred = reg3.predict(x)
baseball2["OBP SLG pred"] = yPred
baseball2[["OBP","SLG","RS","OBP SLG pred"]].head()

如果一支棒球隊的OBP為0.311,SLG為0.405,我們期望該隊得分多少分?

x = np.array([0.311,0.405]).reshape(-1,2)
var2_Pred = reg3.predict(x)
print(var2_Pred[0][0])

我們可以使用線性回歸模型來預測允許的失分,
使用以下兩個變數,OOBP(對手的基本百分比)和OSLG(對手的重擊百分比),

print(baseball.columns)
baseball3 = baseball.dropna(subset=['OOBP'], axis=0, inplace=False)
baseball3 = baseball.dropna(subset=['OSLG'], axis=0, inplace=False)
#baseball2.head()
x = baseball3[["OOBP","OSLG"]].values.reshape(-1,2)
y = baseball3[["RA"]].values.reshape(-1,1)
reg4 = linear_model.LinearRegression()
reg4.fit(x,y)
yPred = reg4.predict(x)
baseball3["OOBP OSLG pred"] = yPred
baseball3[["OOBP","OSLG","RA","OOBP OSLG pred"]].head()

如果一支棒球隊的對手OBP(OOBP)為0.297,對手SLG(OSLG)為0.370,預期球隊允許失分多少?

x = np.array([0.297,0.370]).reshape(-1,2)
yPred = reg4.predict(x)
print(yPred[0][0])

現在讓我們假設我們使用線性回歸模型來預測2002年奧克蘭A隊將贏得多少場比賽
在我們的資料中,‘Team’ 變數中的 OAK 代表oaklanda,
運行的模型使用團隊統計資料,我們將使用 2001 年的團隊統計資料來預測 2002 年的情況,
2001年奧克蘭A隊的 OBP 和 SLG 是多少?根據我們的得分模型,這個隊預計能得分多少?

# 提取2001年oaklanda的資料
baseball2 = baseball[baseball["Team"]=="OAK"].copy()
baseball2 = baseball2[baseball2["Year"]==2001].copy()[["OBP","SLG"]]
print(baseball2.head())  # OBP和SLG
x = baseball2.values.reshape(-1,2)
yPred = reg4.predict(x)
print()
print(yPred[0][0])   # 預測得分
RS = yPred[0][0]

2001年奧克蘭A隊的OOBP和OSLG是多少?根據我們的允許失分模型,該球隊預計失分多少

baseball2 = baseball[baseball["Team"]=="OAK"].copy()
baseball2 = baseball2[baseball2["Year"]==2001].copy()[["OOBP","OSLG"]]
print(baseball2.head())
x = baseball2.values.reshape(-1,2)
yPred = reg3.predict(x)
print()
print(yPred[0][0])    # 預測失分
RA = yPred[0][0]

現在我們已經預測了2002年奧克蘭A的得分和失分,根據預測和我們的獲勝模型,預計球隊會贏多少場?

x = np.array(RS - RA).reshape(-1,1)
wPred = reg1.predict(x)[0][0]
print(wPred)
# 大約會贏101場

根據預測的獲勝次數,你預測球隊是否會在2002年進入季后賽?

這支球隊會在2002年進入季后賽,根據線性回歸模型預測出的獲勝的場數約為101場,大于85,

從我們的資料中,你可以了解2002年奧克蘭A隊的實際表現,
你認為你的預測在得分、允許跑數和獲勝數方面是否接近實際表現?

oak2002 = baseball[baseball["Team"]=="OAK"].copy()
oak2002 = oak2002[oak2002["Year"]==2002].copy()
print(f'Playoffs:{oak2002["Playoffs"].values}')    
print("事實  RS:%.2f  RA:%.2f  W:%.2f"%(oak2002["RS"],oak2002["RA"],oak2002["W"]))
print("預測  RS:%.2f  RA:%.2f  W:%.2f"%(RS,RA,wPred))

這支球隊2020年的確進入季后賽了,預測的得分、失分、獲勝場數與真實資料相比差異不大,因為每年團隊層面的差異并不大
所以用2001年的資料來預測2002年的資料也不會有太大的差異,誤差較小,

作者:葉庭云
CSDN:https://blog.csdn.net/fyfugoyfa
本文僅用于交流學習,未經作者允許,禁止轉載,更勿做其他用途,違者必究,
文章對你有所幫助的話,歡迎給個贊或者 star 呀,你的支持是對作者最大的鼓勵,不足之處可以在評論區多多指正,交流學習呀,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/211143.html

標籤:其他

上一篇:【三維激光掃描】實驗01:環境搭建CAD2014+StonexSiScan軟體安裝

下一篇:[Python影像處理] 三十.影像量化及采樣處理萬字詳細總結(推薦)

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more