主頁 >  其他 > Spark之RDD算子

Spark之RDD算子

2021-08-14 07:18:58 其他

🐱今天出一期spark系列的硬貨,即RDD算子,所謂算子,就是對某些事物的操作,或者說是方法,本期主要介紹幾十個RDD算子,根據他們的特點,逐一進行介紹,有關spark的往期內容大家可以查看下面的內容👇:

  • 鏈接: Spark之處理布爾、數值和字串型別的資料.
  • 鏈接: Spark之Dataframe基本操作.
  • 鏈接: Spark之處理布爾、數值和字串型別的資料.
  • 鏈接: Spark之核心架構.

??記得我們前面說過,saprk存在著惰性評估的機制,所謂惰性評估,就是等到絕對需要時才執行計算,當用戶表達一些對資料的操作時,不是立即修改資料,而是建立一個作用到原始資料的轉換計劃,直到最后才開始執行代碼,這里我們將RDD分為2種,一種是轉換算子,一種是行動算子,

目錄

  • 1. RDD 轉換算子
    • 1.1 Value 型別
    • 1.2 雙Value 型別
    • 1.3 Key - Value 型別
  • 2. RDD 行動算子
  • 3. 參考文獻

1. RDD 轉換算子

轉換算子,故名思義,就是對資料進行轉換的算子,并不不能立馬執行,而是定義邏輯,根據資料處理方式的不同將算子整體上分為Value 型別、雙 Value 型別和 Key-Value型別,

1.1 Value 型別

  1. map

將處理的資料逐條進行映射轉換,這里的轉換可以是型別的轉換,也可以是值的轉換,(一個一個執行,效率不高)

  1. mapPartitions

將待處理的資料以磁區為單位發送到計算節點進行處理,這里的處理是指可以進行任意的處理,哪怕是過濾資料,(效率較高,得到一個磁區后的資料才開始計算,但是對記憶體需求較高)

map 和 mapPartitions 的區別?

  • Map 算子是磁區內一個資料一個資料的執行,類似于串行操作,而 mapPartitions 算子是以磁區為單位進行批處理操作,
  • Map 算子主要目的將資料源中的資料進行轉換和改變,但是不會減少或增多資料,MapPartitions 算子需要傳遞一個迭代器,回傳一個迭代器,沒有要求的元素的個數保持不變,所以可以增加或減少資料
  • Map 算子因為類似于串行操作,所以性能比較低,而是mapPartitions 算子類似于批處理,所以性能較高,但是mapPartitions 算子會長時間占用記憶體,那么這樣會導致記憶體可能不夠用,出現記憶體溢位的錯誤,所以在記憶體有限的情況下,不推薦使用,使用 map 操作,
  1. mapPartitionsWithIndex

將待處理的資料以磁區為單位發送到計算節點進行處理,這里的處理是指可以進行任意的處理,哪怕是過濾資料,在處理時同時可以獲取當前磁區索引

  1. flatMap

將處理的資料進行扁平化后再進行映射處理,所以算子也稱之為扁平映射,(將整體映射成一個一個個體,如: List(List(1,2),3,List(4,5))轉換為 List(List(1),List(2),List(3),List(4),List(5))

  1. glom

將同一個磁區的資料直接轉換為相同型別的記憶體陣列進行處理,磁區不變,(比如將int型別的【1,2】【3,4】這兩個磁區內的資料轉化為array型別的【1,2】【3,4】每個磁區內的資料轉化為了陣列型別)

  1. groupby

將資料根據指定的規則進行分組, 磁區默認不變,但是資料會被打亂重新組合,我們將這樣的操作稱之為shuffle,極限情況下,資料可能被分在同一個磁區中,(分組和磁區沒有本質的關系!
在這里插入圖片描述
解釋一下:(1,2)一個磁區,(3,4)一個磁區,但是經過groupby之后,我們發現(1,3)一個磁區,(2,4)一個磁區,但總體上還是兩個磁區,

  1. filter

將資料根據指定的規則進行篩選過濾,符合規則的資料保留,不符合規則的資料丟棄,當資料進行篩選過濾后,磁區不變,但是磁區內的資料可能不均衡,生產環境下,可能會出現資料傾斜,

  1. sample

根據指定的規則從資料集中抽取資料,

//sample的三個引數
withReplacement: Boolean,#是否又放回抽樣
fraction: Double,#抽取的幾率
seed: Long = Utils.random.nextLong#亂數種子
  1. distinct

將資料集中重復的資料去重,去重的方式是通過將數值map成鍵值對的形式然后通過reducebykey聚合,最后選出聚合結果,

  1. coalesce

根據資料量縮減磁區,用于大資料集過濾后,提高小資料集的執行效率,當 spark 程式中,存在過多的小任務的時候,可以通過coalesce 方法,收縮合并磁區,減少磁區的個數,減小任務調度成本,(該方法不會打亂資料,可能會導致資料傾斜,也可以設定成shuffle,也可以擴大磁區,但是需要shuffle,擴大磁區時等于repartition)

  1. repartition

該操作內部其實執行的是 coalesce 操作,引數 shuffle 的默認值為 true,無論是將磁區數多的RDD 轉換為磁區數少的 RDD,還是將磁區數少的 RDD 轉換為磁區數多的 RDD,repartition操作都可以完成,因為無論如何都會經 shuffle 程序,(將磁區數由少變多)

  1. sortBy

該操作用于排序資料,在排序之前,可以將資料通過 f 函式進行處理,之后按照 f 函式處理的結果進行排序,默認為升序排列,排序后新產生的 RDD 的磁區數與原 RDD 的磁區數一致,中間存在 shuffle 的程序,
(例如:有一組資料1,2,3,4,1,2 其中123時一個磁區,412是一個磁區,排序后的結果是112,234這兩個磁區,)

1.2 雙Value 型別

雙Value 型別故名思義,就是傳遞兩個資料源的算子,這里就會涉及到交集并集差集的概念,(交,并,差集都需要兩個rdd資料型別一樣)

  1. intersection

對源 RDD 和引數 RDD 求交集后回傳一個新的 RDD

  1. union

對源 RDD 和引數 RDD 求并集后回傳一個新的 RDD

  1. subtract

以一個 RDD 元素為主,去除兩個 RDD 中重復元素,將其他元素保留下來,求差集

  1. zip

將兩個 RDD 中的元素,以鍵值對的形式進行合并,其中,鍵值對中的 Key 為第 1 個 RDD中的元素,Value 為第 2 個 RDD 中的相同位置的元素,(要求磁區數量一樣,每個磁區中的資料也一樣)

val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))
val dataRDD = dataRDD1.zip(dataRDD2)
結果為(13)(24)(35)(46

1.3 Key - Value 型別

  1. partitionBy

將資料按照指定 Partitioner 重新進行磁區,Spark 默認的磁區器是HashPartitioner(資料型別一定需要是Key - Value型別的資料,是將資料進行重新的磁區,磁區數量不變,)

  1. reduceByKey

可以將資料按照相同的 Key 對 Value 進行聚合(相同的key分在一個組里面進行聚合,原理是兩兩聚合,如果key的值只有一個,那就不會進行聚合)

  1. groupByKey

將資料源的資料根據 key 對 value 進行分組,將相同的key放在一個組中,形成一個對偶元組(什么是對偶元組,即元組的第一個值是key值,元組的第二個值是相同key的value集合,)

reduceByKey 和 groupByKey 的區別?

我們今天就來從深層次來講講groupByKey和reduceByKey的相同與不同點,
先說一下groupByKey的原理:
在這里插入圖片描述
解釋:在groupByKey會將磁區內的資料打亂,因此存在著shuffle操作,spark中的shuffle操作必須落盤處理,也就是寫進磁盤中進行存盤,否則很容易造成記憶體溢位,shuffle性能不夠高,如果后續需要實作reducebykey一樣的聚合操作,可以使用map函式來實作,

reduceByKey的原理:
在這里插入圖片描述
解釋:reducebykey可以將資料在磁區內就進行聚合操作,使得shuffle落盤的資料大大減少,增強shuffle效率,

總結:

  • shuffle角度:reduceByKey 和 groupByKey 都存在 shuffle 的操作,但是 reduceByKey 可以在 shuffle 前對磁區內相同 key 的資料進行預聚合(combine)功能,這樣會減少落盤的 資料量,而 groupByKey 只是進行分組,不存在資料量減少的問題,reduceByKey 性能比較高,
  • 從功能的角度:reduceByKey 其實包含分組和聚合的功能,GroupByKey只能分組,不能聚合,所以在分組聚合的場合下,推薦使用 reduceByKey,如果僅僅是分組而不需要聚合,那么還是只能使用 groupByKey,
  1. aggregateByKey

將資料根據不同的規則進行磁區內計算和磁區間計算,啥叫磁區內和磁區間呢?我給大家解釋一下:其實在前面的reducebykey中,磁區內指的就是一個磁區內部的資料可以進行聚合操作(不僅僅限于聚合),磁區外,指的是不同磁區之間的資料也可以進行聚合操作(不僅僅限于聚合),
aggregateByKey就是這樣一個函式,可以將磁區內和磁區外的邏輯操作分開來計算,例如磁區內進行取最大值,磁區外求和,這時就可以使用該函式,

  1. foldByKey

當磁區內計算規則和磁區間計算規則相同時,aggregateByKey 就可以簡化為 foldByKey(計算規則相同時,簡化aggregateByKey操作)

  1. combineByKey

最通用的對 key-value 型 rdd 進行聚集操作的聚集函式(aggregation function),類似于 aggregate(),combineByKey()允許用戶回傳值的型別與輸入不一致,

  1. join

在兩個資料源上在型別為(K,V)和(K,W)的 RDD 上呼叫,回傳一個相同 key 對應的所有元素連接在一起的 (K,(V,W))的 RDD,如果兩個資料源中沒有相同的K,則結果中不會出現該(K,W),

  1. leftOuterJoin

類似于 SQL 陳述句的左外連接

  1. cogroup

在型別為(K,V)和(K,W)的 RDD 上呼叫,回傳一個(K,(Iterable,Iterable))型別的 RDD (可以理解為先連接后分組)

2. RDD 行動算子

前面終于把轉換算子講完了,識訓就是對shuffle程序有了更深層次的認識,這一部分我們來講行動算子,所謂行動算子,就是使用了該算子后,將會觸發整個流程的執行,

  1. reduce

聚集 RDD 中的所有元素,先聚合磁區內資料,再聚合磁區間資料

  1. collect

在驅動程式中,以陣列 Array 的形式回傳資料集的所有元素(會將不同磁區內的資料按照磁區順序采集到driver端的記憶體中形成陣列,)

  1. count

回傳 RDD(資料源) 中元素的個數

  1. first

回傳 RDD(資料源) 中的第一個元素

  1. take

回傳一個由 RDD 的前 n 個元素組成的陣列

  1. takeOrdered

回傳該 RDD 排序后的前 n 個元素組成的陣列(先排序,再取數)

  1. aggregate

磁區的資料通過初始值和磁區內的資料進行聚合,然后再和初始值進行磁區間的資料聚合(例如;【1,2】,【3,4】兩個磁區,初始值為10,那么該函式就會 (1+2+10)+(3+4+10)+10計算)

  1. fold

折疊操作,aggregate 的簡化版操作(aggregate當磁區內和磁區間的計算規則相同時可以簡化,)

  1. countByKey

統計每種 key 的個數

  1. save 相關算子

將資料保存到不同格式的檔案中

// 保存成 Text 檔案
rdd.saveAsTextFile("output")
// 序列化成物件保存到檔案
rdd.saveAsObjectFile("output1")
// 保存成 Sequencefile 檔案
rdd.map((_,1)).saveAsSequenceFile("output2")
  1. foreach

分布式遍歷 RDD 中的每一個元素,呼叫指定函式

// 收集后列印
rdd.map(num=>num).collect().foreach(println)
// 分布式列印
rdd.foreach(println)

3. 參考文獻

這些spark函式真的是一個一個學習的,因為不太會Scala,所以只能從分布式的角度來理解他,這些函式對學會分布式的原理太有幫助了,

  • 《Spark權威指南》
  • 《Hadoop權威指南》
  • 《尚硅谷spark教材》
  • 《大資料hadoop3.X分布式處理實戰》
  • 《Pyspark實戰》

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/293550.html

標籤:其他

上一篇:Spark面試總結(1)

下一篇:大資料系統與大規模資料分析--第二次作業操作,hadoop編程、同步圖計算

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more