主頁 >  其他 > 淺談K-means聚類演算法

淺談K-means聚類演算法

2020-09-29 06:11:18 其他

K-means演算法的起源

  1967年,James MacQueen在他的論文《用于多變數觀測分類和分析的一些方法》中首次提出 “K-means”這一術語,1957年,貝爾實驗室也將標準演算法用于脈沖編碼調制技術,1965年,E.W. Forgy發表了本質上相同的演算法——Lloyd-Forgy演算法,所以這一演算法有時也被稱為Lloyd-Forgy演算法,更高效的版本則被Hartigan and Wong提出,

K-means演算法的原理

  K-Means聚類演算法是聚類演算法之一,其中K表示類別的數量,也就是說,我們想要將資料分成幾個類別,Means表示均值,K值決定了初始質心(通常是隨機選擇的中心)的數量,K值是幾,必須有幾個質心, 簡而言之,K-Means聚類演算法是一種通過均值聚類資料點的演算法,

K-means演算法的程序

1、首先輸入K的值,將資料集分為K個類別,

2、從這組資料中隨機選擇K個資料點作為初始大哥(初始質心),其它資料點都作為小弟,

3、對資料集中每一個小弟,計算與每一個大哥的距離,離哪個大哥距離最近,就分配給哪個大哥,

4、每一個大哥手下都聚集了一幫小弟,這時候召開黑幫會議,推選出新的大哥(新的質心),

5、如果新大哥和老大哥之間的距離很小或為0,說明新任大哥靠譜,選舉結束(可以認為我們進行的聚類已經達到期望的結果,演算法終止),

6、如果新大哥和老大哥之間的距離很大,需要重新選舉新大哥,分配小弟(重復3~5的步驟),

K-means演算法的例子

【例】以下是一組用戶的年齡資料,使用K-means演算法劃分資料,

   15151619192022283540

【步驟】

1)我們將K值定為2,并隨機選擇1622作為初始大哥,

2)分別計算每一個小弟與初始大哥的距離,劃分門派,距離相同的隨機劃分,

1 第一次劃分資料

所有資料

16距離

22距離

門派116

門派222

15

1

7

16

22

15

1

7

15

20

16

0

6

15

28

19

3

3

19

35

19

3

3

19

40

20

4

2

 

 

22

6

0

 

 

28

12

6

 

 

35

19

13

 

 

40

24

18

 

 

 

3)分別計算兩個門派的均值,把均值推選為新的大哥(新質心),門派1的均值為16.8,門派2的均值為29.我們以新大哥代替老大哥,并重復之前的操作計算每一個小弟與新大哥的距離,再次劃分門派,

第二次劃分資料

所有資料

16.8距離

29距離

門派116.8

門派229

15

1.8

14

15

28

15

1.8

14

15

35

16

0.8

13

16

40

19

2.2

10

19

 

19

2.2

10

19

 

20

3.2

9

20

 

22

5.2

7

22

 

28

11.2

1

 

 

35

18.2

6

 

 

40

23.2

11

 

 

 

4)此時門派1均值18,門派2均值34.33,推舉為新大哥,重復劃分門派,

表3 第三次劃分資料

所有資料

18距離

34.33距離

門派118

門派234.33

15

3

19.33

15

28

15

3

19.33

15

35

16

2

18.33

16

40

19

1

18.33

19

 

19

1

18.33

19

 

20

2

14.33

20

 

22

4

12.33

22

 

28

10

6.33

 

 

35

17

0.67

 

 

40

22

5.67

 

 

 

5)計算門派1均值為18,門派2均值為34.33,推舉為新大哥,此時新大哥和老大哥距離為0,選舉結束,

年齡資料被劃分為兩類,如上圖所示,15--22為一類,28--40為一類,

 K-means演算法的有趣用例

1.檔案分類器

根據標簽、主題和檔案內容將檔案分為多個不同的種類,這是一個非常標準且經典的K-means演算法分類問題,首先需要對檔案進行初始化處理,將每個檔案都用矢量來表示,并使用術語頻率來識別常用術語進行檔案分類,這一步很有必要,然后對檔案向量進行聚類以識別檔案組中的相似性,

2.物品傳輸優化

使用K-means演算法的組合找到無人機最佳發射位置和使用遺傳演算法來解決旅行商的行車路線問題,優化無人機物品傳輸程序,

3.識別犯罪地點

使用城市中特定地區的相關犯罪資料,分析犯罪型別、犯罪地點以及兩者之間的聯系,可以對城市中容易犯罪的地區做高質量的偵查,這是基于德里飛行情報區犯罪資料的論文,

4.客戶分類

聚類能夠幫助營銷人員改善他們的客戶群(在其目標區域內作業),并根據客戶的購買歷史、興趣或活動監控來對客戶類別做進一步的細分,這是關于電信運營商如何將預付費客戶分為充值模式、發送短信和瀏覽網站幾個類別的白皮書,對客戶進行分類有助于公司針對特定客戶群制定特定的廣告,

5.球隊狀態分析

分析球員的狀態一直都是體育界的一個重點,隨著競爭越來越激烈,機器學習在這個領域也扮演著至關重要的角色,要是你想創建一個優秀的球隊并且喜歡根據球員的狀態來識別類似的球員,那么K-means演算法是一個很好的選擇,

6.保險欺詐檢測

機器學習在汽車、醫療保險和保險欺詐檢測領域中應用廣泛,利用以往欺詐性索賠的歷史資料,根據它和欺詐性模式聚類的相似性來識別新的索賠,由于保險欺詐可能會對公司造成數百萬美元的損失,因此欺詐檢測對公司來說至關重要,這是汽車保險中使用聚類來檢測欺詐的白皮書,

7.乘車資料分析

面向大眾公開的Uber乘車資訊的資料集,為我們提供了大量關于交通、運輸時間、高峰乘車地點等有價值的資料集,分析這些資料不僅對Uber大有好處,而且有助于我們對城市的交通模式進行深入的了解,來幫助我們做城市未來規劃,

8.網路分析犯罪分子

網路分析是從個人和團體中收集資料來識別二者之間的重要關系的程序,網路分析源自于犯罪檔案,該檔案提供了調查部門的資訊,由此對犯罪現場的罪犯進行分類,

9.呼叫記錄詳細分析

呼叫詳細記錄(CDR)是電信公司收集的關于用戶呼叫,短訊息和網路活動等資訊的集合,將通話詳細記錄與客戶個人資料結合在一起,這就能幫助電信公司對客戶需求做更多的預測,

10.IT警報的自動化聚類

大型企業IT基礎架構技術組件(如網路,存盤或資料庫)會生成大量的警報資訊,由于警報資訊可以指向具體的操作,因此必須對警報資訊進行手動篩選,確保后續程序的優先級,對資料進行聚類可以對警報類別和平均修復時間做深入了解,有助于對未來故障進行預測,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/137164.html

標籤:其他

上一篇:BJFU-218-基于鏈式存盤結構的圖書資訊表的最貴圖書的查找

下一篇:資料結構筆記1(c++)_指標

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more