主頁 >  其他 > 機器學習資料順序隨機打亂:Python實作

機器學習資料順序隨機打亂:Python實作

2023-05-23 09:04:52 其他

??本文介紹基于Python語言,實作機器學習、深度學習等模型訓練時,資料集打亂的具體操作,

1 為什么要打亂資料集

??在機器學習中,如果不進行資料集的打亂,則可能導致模型在訓練程序中出現具有“偏見”的情況,降低其泛化能力,從而降低訓練精度,例如,如果我們做深度學習的分類,其中初始資料的前80%都是第一類,后20%都是第二類,那么如果我們不打亂資料,模型按照資料順序依次加以訓練,則在前面大部分資料中訓練出來的結果都是第一類(即形成了慣性,模型認為這些資料只對應著第一類);而到后20%資料進行訓練時,所得結果也往往全都為第一類;所以要打亂,

2 如何打亂

??首先引入random

import random

2.1 資料特征與標簽均為一維

DataIndex=[i for i in range(len(TrainX))]
random.shuffle(DataIndex)
TrainX=TrainX[DataIndex]
TrainY=TrainY[DataIndex]

??其中,TrainX為一維的訓練資料特征,TrainY為一維的訓練資料標簽,

2.2 資料特征為多維而標簽為一維

Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))
Datasets=Datasets.shuffle(1000)

??其中,TrainX需要為多維DataFrame格式的訓練資料特征,TrainY為一維Series格式的訓練資料標簽,但是經過這種方法,我們得到的DatasetsDataset類的資料,若是接下來需要帶入input_fn還可以,如果想單獨取出TrainXTrainY的話就比較麻煩,

??因此,我們還可以直接在初始資料劃分訓練集與測驗集時直接將資料打亂:

TrainData=https://www.cnblogs.com/fkxxgis/archive/2023/05/22/MyData.sample(frac=TrainFrac,random_state=RandomSeed)
TestData=MyData.drop(TrainData.index)

??其中,MyData為初始全部資料,TrainDataTestData分別為劃分后的訓練集與測驗集資料,

??經過.sample()這一步驟,與原始資料的Index相比,實際上已經實作了TrainDataTestData的隨機排列,

??至此,大功告成,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/553099.html

標籤:其他

上一篇:摳圖黨福音:教你一鍵分割影像

下一篇:返回列表

標籤雲
其他(159485) Python(38162) JavaScript(25441) Java(18096) C(15230) 區塊鏈(8267) C#(7972) AI(7469) 爪哇(7425) MySQL(7204) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4574) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1975) 功能(1967) Web開發(1951) HtmlCss(1940) C++(1919) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1861) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 機器學習資料順序隨機打亂:Python實作

    本文介紹基于**Python**語言,實作機器學習、深度學習等模型訓練時,**資料集打亂**的具體操作。 # 1 為什么要打亂資料集 在機器學習中,如果不進行資料集的打亂,則可能導致模型在訓練程序中出現具有“**偏見**”的情況,降低其泛化能力,從而降低訓練精度。例如,如果我們做深度學習的分類,其中 ......

    uj5u.com 2023-05-23 09:04:52 more
  • 摳圖黨福音:教你一鍵分割影像

    摘要:輸入一個影像,通過Segment Anything模型即可獲得影像所有目標的分割點位置,再通過位置將影像進行分割保存。 本文分享自華為云社區《一鍵分割影像》,作者:雨落無痕 。 Segment Anything Segment Anything Model(SAM)通過點或框等輸入提示生成高質 ......

    uj5u.com 2023-05-23 09:04:40 more
  • GPS北斗校時服務器(時間同步裝置)助力橋梁檢測系統建設

    GPS北斗校時服務器(時間同步裝置)助力橋梁檢測系統建設 GPS北斗校時服務器(時間同步裝置)助力橋梁檢測系統建設 京準電子科技官微——ahjzsz 一、系統概述 整個采集系統分散在橋梁的各個部位。橋梁按照區域劃分為若干區段,在主要幾個區段中安置著信號采集機站,每組采集機站均和GPS校時器相連,GP ......

    uj5u.com 2023-05-23 09:04:10 more
  • 紅黑樹是怎么來的

    本文從二叉搜索樹傾斜的原因(自上而下生長)出發,推出維持樹形資料結構平衡性的關鍵:自下而上裂變式生長,進而引出裂變式生長的理論模型:2-3 樹。由于 2-3 樹實作上的復雜性,引出其實作上的替代品:紅黑樹。最后,我們討論如何通過左旋、右旋以及顏色翻轉這“三板斧”來維護紅黑樹插入和洗掉元素后的動態平衡... ......

    uj5u.com 2023-05-23 09:03:20 more
  • 解密Prompt7. 偏好對齊RLHF-OpenAI&#183;DeepMind&#183;Anthropi

    RLHF是針對有用,無害,事實性等原則,把模型輸出和人類偏好進行對齊的一種方案。以OpenAI為基礎,本章會對比DeepMind, Anthropic在RLHF步驟中的異同,試圖理解RLHF究竟做了啥 ......

    uj5u.com 2023-05-23 09:02:10 more
  • AIGC持續火爆大模型爭相推出,龐大市場造就算力供應模式演變

    本圖由AI生成 黃仁勛說的AI發展迎來iPhone時刻,對NVIDIA有什么影響? 文/王吉偉 近期的AIGC領域仍舊火爆例外。 但火的不只是AIGC應用,還有巨頭之間的AI競賽,以及接連不斷上新的AI大模型(LLM,Large Language Model)。 面對ChatGPT帶來的技術沖擊,為 ......

    uj5u.com 2023-05-23 09:01:07 more
  • 機器學習資料順序隨機打亂:Python實作

    本文介紹基于**Python**語言,實作機器學習、深度學習等模型訓練時,**資料集打亂**的具體操作。 # 1 為什么要打亂資料集 在機器學習中,如果不進行資料集的打亂,則可能導致模型在訓練程序中出現具有“**偏見**”的情況,降低其泛化能力,從而降低訓練精度。例如,如果我們做深度學習的分類,其中 ......

    uj5u.com 2023-05-23 09:01:02 more
  • 摳圖黨福音:教你一鍵分割影像

    摘要:輸入一個影像,通過Segment Anything模型即可獲得影像所有目標的分割點位置,再通過位置將影像進行分割保存。 本文分享自華為云社區《一鍵分割影像》,作者:雨落無痕 。 Segment Anything Segment Anything Model(SAM)通過點或框等輸入提示生成高質 ......

    uj5u.com 2023-05-23 09:00:49 more
  • [paper reading]|LinK: Linear Kernel for LiDAR-based 3D Perce

    摘要 將2D大核的成功推廣到3D感知具有挑戰性,因為: 1.處理3D資料的三次增加的開銷; 2. 資料的稀缺性和稀缺性給優化帶來了困難。 以前的作業通過引入塊共享權重,已經邁出了將內核大小從3 × 3 × 3尺度到7×7×7的第一步。但是,為了減少塊內的特征變化,它只使用了適度的塊大小,并沒有獲得像 ......

    uj5u.com 2023-05-23 08:55:20 more
  • 云原生周刊:2023 年可觀測性狀態報告發布 | 2023.5.22

    Splunk 與 Enterprise Strategy Group 合作發布了 State of Observability 2023,這是一份年度全球研究報告,探討了可觀測性在管理當今日益復雜的技識訓境中的作用。該報告將可觀測性領導者定義為具有至少 24 個月的可觀察性經驗的組織。 此外,領導者 ......

    uj5u.com 2023-05-23 08:48:44 more