主頁 >  其他 > 快速了解HIVE檔案存盤格式

快速了解HIVE檔案存盤格式

2021-08-20 07:04:25 其他

快速了解HIVE檔案存盤格式

    • 一 列式存盤和行式存盤
    • 二 TEXTFILE格式
    • 三 Sequence File
      • a 、Sequence File優缺點
      • b、Sequence File格式
        • 1、未壓縮格式
        • 2、基于record壓縮格式
        • 3、基于block壓縮格式
    • 四 Avro File
      • a 、簡介
      • b、應用場景
      • c、結構
      • d、優點
      • e、缺點
    • 五 ORC格式
    • 六 PARQUET格式
    • 七 Apache Arrow新一代的存盤格式
      • a、Arrow簡介
      • b、Arrow是如何提升資料移動性能的
    • 八 BigData File Viewer工具
      • a、介紹
      • b、功能清單

Hive支持的存盤數的格式主要有: TEXTFILE行式存盤) 、 SEQUENCEFILE(行式存盤)、 ORC 列式存盤)、 PARQUET 列式存盤),

img

一 列式存盤和行式存盤

a 、行式存盤:

一行資料接著一行資料做存盤,一行資料中的多個欄位的值都是物理相鄰的,

特點:

  • 一行相關的資料是保存在一起,比較符合面向物件的思維,因為一行資料就是一條記錄

  • 這種存盤格式比較方便進行INSERT/UPDATE操作

b 、列式存盤:

一列資料單獨存盤,多行資料的相同列的值,在物理存盤上是相鄰的

特點:

  • 分析場景中往往需要讀大量行但是少數幾個列,在行存模式下,資料按行連續存盤,所有列的資料都存盤在一個block中,不參與計算的列在IO時也要全部讀出,讀取操作被嚴重放大,而列存模式下,只需要讀取參與計算的列即可,極大的減低了IO cost,加速了查詢,

  • 同一列中的資料屬于同一型別,不需要針對不同資料型別頻繁切換壓縮演算法,壓縮效果顯著,列存往往有著高達十倍甚至更高的壓縮比,節省了大量的存盤空間,降低了存盤成本,

img

二 TEXTFILE格式

hive默認格式,資料不做壓縮,磁盤開銷大,資料決議開銷大,可結合Gzip、Bzip2使用(系統自動檢查,執行查詢時自動解壓),但使用這種方式,hive不會對資料進行切分,從而無法對資料進行并行操作,

img

三 Sequence File

Sequence File是Hadoop API提供的一種二進制檔案支持,這種二進制檔案直接將<key, value>鍵值對序列化到檔案中,

img

a 、Sequence File優缺點

優點

  • 二進制格式存盤,比文本檔案更緊湊,

  • 支持不同級別壓縮 基于Record或Block壓縮),

  • 檔案可以拆分和并行處理,適用于MapReduce,

局限性

  • 二進制格式檔案不方便查看,

  • 特定于hadoop,只有Java API可用于與之進行互動,尚未提供多語言支持,

b、Sequence File格式

Hadoop Sequence File 是一個由二進制鍵/值對組成的,根據壓縮型別,有3種不同的Sequence File格式:未壓縮格式record壓縮格式block壓縮格式

Sequence File由一個header一個或多個record組成,以上三種格式均使用相同的header結構,如下所示:

img

前3個位元組為SEQ,表示該檔案是序列檔案,后跟一個位元組表示實際版本號 例如SEQ4或SEQ6),Header中其他也包括key、value class名字、 壓縮細節、metadata、Sync marker,Sync Marker同步標記,用于可以讀取任意位置的資料,

1、未壓縮格式

img

未壓縮的Sequence File檔案由header、record、sync三個部分組成,其中record包含了4個部分:record length 記錄長度)、key length 鍵長)、key、value,

每隔幾個record 100位元組左右)就有一個同步標記,

2、基于record壓縮格式

img

基于record壓縮的Sequence File檔案由header、record、sync三個部分組成,其中record包含了4個部分:record length 記錄長度)、key length 鍵長)、key、compressed value 被壓縮的值)

每隔幾個record 100位元組左右)就有一個同步標記,

3、基于block壓縮格式

img

基于block壓縮的Sequence File檔案由header、block、sync三個部分組成,

block指的是record block,可以理解為多個record記錄組成的塊,注意,這個block和HDFS中分塊存盤的block 128M)是不同的概念,

Block中包括:record條數、壓縮的key長度、壓縮的keys、壓縮的value長度、壓縮的values,每隔一個block就有一個同步標記,

block壓縮比record壓縮提供更好的壓縮率,使用Sequence File時,通常首選塊壓縮,

四 Avro File

img

a 、簡介

  • Apache Avro是與語言無關的序列化系統,由Hadoop創始人 Doug Cutting開發

  • Avro是基于行的存盤格式,它在每個檔案中都包含JSON格式的schema定義,從而提高了互操作性并允許schema的變化 洗掉列、添加列), 除了支持可切分以外,還支持塊壓縮,

  • Avro是一種自描述格式,它將資料的schema直接編碼存盤在檔案中,可以用來存盤復雜結構的資料,

  • Avro可以進行快速序列化,生成的序列化資料也比較小,

b、應用場景

  • 適合于一次性需要將大量的列 資料比較寬)、寫入頻繁的場景

  • 隨著更多存盤格式的發展,常用于Kafka和Druid中

c、結構

img

直接將一行資料序列化在一個block中

d、優點

  • Avro是與語言無關的資料序列化系統,

  • Avro將schema存盤在header中,資料是自描述的,

  • 序列化和反序列化速度很快,

  • Avro檔案是可切分的、可壓縮的,非常適合在Hadoop生態系統中進行資料存盤,

e、缺點

  • 如果我們只需要對資料檔案中的少數列進行操作,行式存盤效率較低,例如:我們讀取15列中的2列資料,基于行式存盤就需要讀取數百萬行的15列,而列式存盤就會比行式存盤方式高效

  • 列式存盤因為是將同一列 類)的資料存盤在一起,壓縮率要比方式存盤高

五 ORC格式

Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存盤格式,

可以看到每個Orc檔案由1個或多個stripe組成,每個stripe250MB大小,這個Stripe實際相當于RowGroup概念,不過大小由4MB->250MB,這樣能提升順序讀的吞吐率,每個Stripe里有三部分組成,分別是IndexData,Row Data,StripeFooter:

img

  • 一個orc檔案可以分為若干個Stripe

  • 一個stripe可以分為三個部分

  • indexData:某些列的索引資料

  • rowData :真正的資料存盤

  • StripFooter:stripe的元資料資訊

1)Index Data:一個輕量級的index,默認是每隔1W行做一個索引,這里做的索引只是記錄某行的各欄位在Row Data中的offset,

2)Row Data:存的是具體的資料,先取部分行,然后對這些行按列進行存盤,對每個列進行了編碼,分成多個Stream來存盤,

3)Stripe Footer:存的是各個stripe的元資料資訊

每個檔案有一個File Footer,這里面存的是每個Stripe的行數,每個Column的資料型別資訊等;每個檔案的尾部是一個PostScript,這里面記錄了整個檔案的壓縮型別以及FileFooter的長度資訊等,在讀取檔案時,會seek到檔案尾部讀PostScript,從里面決議到File Footer長度,再讀FileFooter,從里面決議到各個Stripe資訊,再讀各個Stripe,即從后往前讀,

六 PARQUET格式

Parquet是面向分析型業務的列式存盤格式,由Twitter和Cloudera合作開發,2015年5月從Apache的范訓器里畢業成為Apache頂級專案,

Parquet檔案是以二進制方式存盤的,所以是不可以直接讀取的,檔案中包括該檔案的資料和元資料,因此Parquet格式檔案是自決議的,

通常情況下,在存盤Parquet資料的時候會按照Block大小設定行組的大小,由于一般情況下每一個Mapper任務處理資料的最小單位是一個Block,這樣可以把每一個行組由一個Mapper任務處理,增大任務執行并行度,Parquet檔案的格式如下圖所示,

img

上圖展示了一個Parquet檔案的內容,一個檔案中可以存盤多個行組,檔案的首位都是該檔案的Magic Code,用于校驗它是否是一個Parquet檔案,Footer length記錄了檔案元資料的大小,通過該值和檔案長度可以計算出元資料的偏移量,檔案的元資料中包括每一個行組的元資料資訊和該檔案存盤資料的Schema資訊,除了檔案中每一個行組的元資料,每一頁的開始都會存盤該頁的元資料,在Parquet中,有三種型別的頁:資料頁、字典頁和索引頁,資料頁用于存盤當前行組中該列的值,字典頁存盤該列值的編碼字典,每一個列塊中最多包含一個字典頁,索引頁用來存盤當前行組下該列的索引,目前Parquet中還不支持索引頁,

七 Apache Arrow新一代的存盤格式

img

a、Arrow簡介

  • Apache Arrow是一個跨語言平臺,是一種列式記憶體資料結構,主要用于構建資料系統,Apache Arrow在2016年2月17日作為頂級Apache專案引入,

img

  • Apache Arrow發展非常迅速,并且在未來會有更好的發展空間, 它可以在系統之間進行高效且快速的資料交換,而無需進行序列化,而這些成本已與其他系統 例如Thrift,Avro和Protoco* Buffers)相關聯,

  • 每一個系統實作,它的方法 method)都有自己的記憶體存盤格式,在開發中,70%-80%的時間浪費在了序列化和反序列化上,

img

  • Arrow促進了許多組件之間的通信, 例如,使用Python pandas)讀取復雜的檔案并將其轉換為Spark DataFrame,

img

b、Arrow是如何提升資料移動性能的

  • 利用Arrow作為記憶體中資料表示的兩個程序可以將資料從一種方法“重定向”到另一種方法,而無需序列化或反序列化, 例如,Spark可以使用Python行程發送Arrow資料來執行用戶定義的函式,

  • 無需進行反序列化,可以直接從啟用了Arrow的資料存盤系統中接收Arrow資料, 例如,Kudu可以將Arrow資料直接發送到Impala進行分析,

  • Arrow的設計針對嵌套結構化資料 例如在Impala或Spark Data框架中)的分析性能進行了優化,

八 BigData File Viewer工具

a、介紹

  • 一個跨平臺 Windows,MAC,Linux)桌面應用程式,用于查看常見的大資料二進制格式,例如Parquet,ORC,AVRO等,支持本地檔案系統,HDFS,AWS S3等,

img

github地址:https://github.com/Eugene-Mark/bigdata-file-viewer

b、功能清單

  • 打開并查看本地目錄中的Parquet,ORC和AVRO,HDFS,AWS S3等,

  • 將二進制格式的資料轉換為文本格式的資料,例如CSV

  • 支持復雜的資料型別,例如陣列,映射,結構等

  • 支持Windows,MAC和Linux等多種平臺

  • 代碼可擴展以涉及其他資料格式

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/294895.html

標籤:其他

上一篇:Day362.RocketMQ概述 -RocketMQ

下一篇:Flink

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more