菜單

主頁 > 其他 > 機器學習資料順序隨機打亂：Python實作

機器學習資料順序隨機打亂：Python實作

2023-05-23 09:04:52 其他

??本文介紹基于Python語言，實作機器學習、深度學習等模型訓練時，資料集打亂的具體操作，

1 為什么要打亂資料集

??在機器學習中，如果不進行資料集的打亂，則可能導致模型在訓練程序中出現具有“偏見”的情況，降低其泛化能力，從而降低訓練精度，例如，如果我們做深度學習的分類，其中初始資料的前80%都是第一類，后20%都是第二類，那么如果我們不打亂資料，模型按照資料順序依次加以訓練，則在前面大部分資料中訓練出來的結果都是第一類（即形成了慣性，模型認為這些資料只對應著第一類）；而到后20%資料進行訓練時，所得結果也往往全都為第一類；所以要打亂，

2 如何打亂

??首先引入random，

import random

2.1 資料特征與標簽均為一維

DataIndex=[i for i in range(len(TrainX))]
random.shuffle(DataIndex)
TrainX=TrainX[DataIndex]
TrainY=TrainY[DataIndex]

??其中，TrainX為一維的訓練資料特征，TrainY為一維的訓練資料標簽，

2.2 資料特征為多維而標簽為一維

Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))
Datasets=Datasets.shuffle(1000)

??其中，TrainX需要為多維DataFrame格式的訓練資料特征，TrainY為一維Series格式的訓練資料標簽，但是經過這種方法，我們得到的Datasets為Dataset類的資料，若是接下來需要帶入input_fn還可以，如果想單獨取出TrainX和TrainY的話就比較麻煩，

??因此，我們還可以直接在初始資料劃分訓練集與測驗集時直接將資料打亂：

TrainData=https://www.cnblogs.com/fkxxgis/archive/2023/05/22/MyData.sample(frac=TrainFrac,random_state=RandomSeed)
TestData=MyData.drop(TrainData.index)

??其中，MyData為初始全部資料，TrainData與TestData分別為劃分后的訓練集與測驗集資料，

??經過.sample()這一步驟，與原始資料的Index相比，實際上已經實作了TrainData與TestData的隨機排列，

??至此，大功告成，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/553099.html

標籤：其他

上一篇：摳圖黨福音：教你一鍵分割影像

下一篇：返回列表

標籤雲: 其他(159485) Python(38162) JavaScript(25441) Java(18096) C(15230) 區塊鏈(8267) C＃(7972) AI(7469) 爪哇(7425) MySQL(7204) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4574) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1975) 功能(1967) Web開發(1951) HtmlCss(1940) C++(1919) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1861) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽

網閘典型架構簡述
網閘架構一般分為兩種：三主機的三系統架構網閘和雙主機的2+1架構網閘。三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看，三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看，三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統，“2”分為 ......
uj5u.com 2020-09-10 02:00:44 more
如何從xshell上傳檔案到centos linux虛擬機里
如何從xshell上傳檔案到centos linux虛擬機里及：虛擬機CentOs下執行 yum -y install lrzsz命令，出現錯誤：鏡像無法找到軟體包前言一、安裝lrzsz步驟二、上傳檔案三、遇到的問題及解決方案總結前言提示：其實很簡單，往虛擬機上安裝一個上傳檔案的工具 ......
uj5u.com 2020-09-10 02:00:47 more
一、SQLMAP入門
一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號， sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入從文本中加載http請求，SQLMAP可以從一個文本檔案中 ......
uj5u.com 2020-09-10 02:00:50 more
Metasploit 簡單使用教程
metasploit 簡單使用教程浩先生， 2020-08-28 16:18:25 分類專欄： kail 網路安全 linux 文章標簽： linux資訊安全編輯著作權 metasploit 使用教程前言一、Metasploit是什么？二、準備作業三、具體步驟前言 Msfconsole ......
uj5u.com 2020-09-10 02:00:53 more
游戲逆向之驅動層與用戶層通訊
驅動層代碼： #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......
uj5u.com 2020-09-10 02:00:56 more
北斗電力時鐘（北斗授時服務器）讓網路資料更精準
北斗電力時鐘（北斗授時服務器）讓網路資料更精準北斗電力時鐘（北斗授時服務器）讓網路資料更精準京準電子科技官微——ahjzsz 近幾年，資訊技術的得了快速發展，互聯網在逐漸普及，其在人們生活和生產中都得到了廣泛應用，并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用，一方面使電力系統的運行 ......
uj5u.com 2020-09-10 02:01:03 more
【CTF】CTFHub 技能樹彩蛋 writeup
?碎碎念 CTFHub：https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺，后來才有了CTFHub。感覺不論是網頁UI設計，還是題目質量，賽事跟蹤，工具軟體都做得很不錯。而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。個人還是非常喜歡這個 ......
uj5u.com 2020-09-10 02:04:05 more
02windows基礎操作
我學到了一下幾點 Windows系統目錄結構與滲透的作用常見Windows的服務詳解 Windows埠詳解常用的Windows注冊表詳解 hacker DOS命令詳解（net user / type /md /rd/ dir /cd /net use copy、批處理等）利用dos命令制作 ......
uj5u.com 2020-09-10 02:04:18 more
03.Linux基礎操作
我學到了以下幾點 01Linux系統介紹02系統安裝，密碼啊破解03Linux常用命令04LAMP 01LINUX windows： win03 8 12 16 19 配置不繁瑣 Linux：redhat,centos(紅帽社區版)，Ubuntu server,suse unix:金融機構，證券，銀 ......
uj5u.com 2020-09-10 02:04:30 more
05HTML
01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼懂得挖掘漏洞（POST注入/XSS漏洞上傳）3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題，描述 ......
uj5u.com 2020-09-10 02:04:36 more

最新发布

機器學習資料順序隨機打亂：Python實作
本文介紹基于**Python**語言，實作機器學習、深度學習等模型訓練時，**資料集打亂**的具體操作。 # 1 為什么要打亂資料集在機器學習中，如果不進行資料集的打亂，則可能導致模型在訓練程序中出現具有“**偏見**”的情況，降低其泛化能力，從而降低訓練精度。例如，如果我們做深度學習的分類，其中 ......
uj5u.com 2023-05-23 09:04:52 more
摳圖黨福音：教你一鍵分割影像
摘要：輸入一個影像，通過Segment Anything模型即可獲得影像所有目標的分割點位置，再通過位置將影像進行分割保存。本文分享自華為云社區《一鍵分割影像》，作者：雨落無痕。 Segment Anything Segment Anything Model（SAM）通過點或框等輸入提示生成高質 ......
uj5u.com 2023-05-23 09:04:40 more
GPS北斗校時服務器（時間同步裝置）助力橋梁檢測系統建設
GPS北斗校時服務器（時間同步裝置）助力橋梁檢測系統建設 GPS北斗校時服務器（時間同步裝置）助力橋梁檢測系統建設京準電子科技官微——ahjzsz 一、系統概述整個采集系統分散在橋梁的各個部位。橋梁按照區域劃分為若干區段，在主要幾個區段中安置著信號采集機站，每組采集機站均和GPS校時器相連，GP ......
uj5u.com 2023-05-23 09:04:10 more
紅黑樹是怎么來的
本文從二叉搜索樹傾斜的原因（自上而下生長）出發，推出維持樹形資料結構平衡性的關鍵：自下而上裂變式生長，進而引出裂變式生長的理論模型：2-3 樹。由于 2-3 樹實作上的復雜性，引出其實作上的替代品：紅黑樹。最后，我們討論如何通過左旋、右旋以及顏色翻轉這“三板斧”來維護紅黑樹插入和洗掉元素后的動態平衡... ......
uj5u.com 2023-05-23 09:03:20 more
解密Prompt7. 偏好對齊RLHF-OpenAI·DeepMind·Anthropi
RLHF是針對有用，無害，事實性等原則，把模型輸出和人類偏好進行對齊的一種方案。以OpenAI為基礎，本章會對比DeepMind, Anthropic在RLHF步驟中的異同，試圖理解RLHF究竟做了啥 ......
uj5u.com 2023-05-23 09:02:10 more
AIGC持續火爆大模型爭相推出，龐大市場造就算力供應模式演變
本圖由AI生成黃仁勛說的AI發展迎來iPhone時刻，對NVIDIA有什么影響？文/王吉偉近期的AIGC領域仍舊火爆例外。但火的不只是AIGC應用，還有巨頭之間的AI競賽，以及接連不斷上新的AI大模型（LLM，Large Language Model）。面對ChatGPT帶來的技術沖擊，為 ......
uj5u.com 2023-05-23 09:01:07 more
機器學習資料順序隨機打亂：Python實作
本文介紹基于**Python**語言，實作機器學習、深度學習等模型訓練時，**資料集打亂**的具體操作。 # 1 為什么要打亂資料集在機器學習中，如果不進行資料集的打亂，則可能導致模型在訓練程序中出現具有“**偏見**”的情況，降低其泛化能力，從而降低訓練精度。例如，如果我們做深度學習的分類，其中 ......
uj5u.com 2023-05-23 09:01:02 more
摳圖黨福音：教你一鍵分割影像
摘要：輸入一個影像，通過Segment Anything模型即可獲得影像所有目標的分割點位置，再通過位置將影像進行分割保存。本文分享自華為云社區《一鍵分割影像》，作者：雨落無痕。 Segment Anything Segment Anything Model（SAM）通過點或框等輸入提示生成高質 ......
uj5u.com 2023-05-23 09:00:49 more
[paper reading]|LinK: Linear Kernel for LiDAR-based 3D Perce
摘要將2D大核的成功推廣到3D感知具有挑戰性，因為: 1.處理3D資料的三次增加的開銷; 2. 資料的稀缺性和稀缺性給優化帶來了困難。以前的作業通過引入塊共享權重，已經邁出了將內核大小從3 × 3 × 3尺度到7×7×7的第一步。但是，為了減少塊內的特征變化，它只使用了適度的塊大小，并沒有獲得像 ......
uj5u.com 2023-05-23 08:55:20 more
云原生周刊：2023 年可觀測性狀態報告發布 | 2023.5.22
Splunk 與 Enterprise Strategy Group 合作發布了 State of Observability 2023，這是一份年度全球研究報告，探討了可觀測性在管理當今日益復雜的技識訓境中的作用。該報告將可觀測性領導者定義為具有至少 24 個月的可觀察性經驗的組織。此外，領導者 ......
uj5u.com 2023-05-23 08:48:44 more

友情鏈接

有解無憂