主頁 >
其他 > 讀資料壓縮入門筆記05_字典轉換
讀資料壓縮入門筆記05_字典轉換
2023-06-16 07:51:51 其他

1. 瓶頸
1.1. 在網路帶寬有限、存盤昂貴的時期
1.2. 移動設備正日益成為人們訪問互聯網的首選的今天
1.3. 資料壓縮成了緩解這些瓶頸的關鍵
2. 字典轉換
2.2. 完全改變了人們對資料壓縮的認知
2.2.1. 壓縮變成了一種對各種型別的資料都有用的演算法
2.3. 事實上今天所有的主流壓縮演算法(比如GZIP或者7-Zip)都會在核心轉換步驟中使用字典轉換
3. 基本字典轉換
3.1. 統計壓縮主要關注資料流中單個符號的出現概率
3.2. 這一概率與其周圍可能出現的符號無關
3.3. 符號字典
3.4. 任何出現可以重復使用的相似內容分組的地方,都會有“短語”存在
3.5. 步驟
3.5.1. 給定源資料流
3.5.2. 構建出單詞字典(而不是符號字典)
3.5.3. 再將統計壓縮應用到字典中的單詞上
3.6. 字典轉換并非是要去替代統計編碼
3.6.1. 只是你先應用到資料流上的一個轉換,這樣統計編碼演算法就能更有效地對其編碼
3.7. 實際是一個資料流的預處理階段
3.7.1. 生成的資料集會更小,比源資料流壓縮率更高
3.8. 當能識別出那些經常重復使用的長字串,并為它們分配最短的碼字時,字典轉換的效率最高
4. 分詞
4.1. tokenization
4.2. 是資訊論領域的一個研究分支
4.3. 一種暴力方法是讀取一組符號并搜索字串的剩余部分來確定該組符號的出現頻次
4.3.1. 對所有真實的資料流而言,這樣做不僅需要大量的記憶體,同時還需要花費很長的時間
4.4. 為了找到資料流的理想分詞,我們需要有某種方法來處理現有的和那些還沒有遇到的符號,并能以一種高效的方式將兩者合并為盡可能長的符號集
5. LZ演算法
5.1. 1977年,Abraham Lempel和Jacob Ziv提出
5.1.1. Jacob Ziv大學畢業于以色列理工學院,隨后于1961年獲得了麻省理工學院資訊論專業的博士學位
5.1.2. Abraham Lempel在以色列理工學院獲得了學士、碩士和博士學位
5.1.3. 1997年獲得了IEEE資訊理論學會的香農獎
5.2. LZ77 和LZ78
5.2.1. 找出最佳分詞方面非常高效,30多年來還沒有其他演算法可以取代它們
5.3. 衍生演算法
5.3.1. 每一種變體都是根據特殊的需要、性能要求的不同或者用例的不同,對LZ77基本演算法進行了一些小調整
5.3.1.1. 對資料集越了解,你就越能從中選擇出最適合的LZ變換
5.3.2. GIF影像格式中使用的LZW(即Lempel-Ziv-Welch)演算法
5.3.2.1. Terry Welch于1984年提出的,它采用了LZ78演算法的思想
5.3.2.2. 首個在計算機中廣泛采用的通用資料壓縮方法
5.3.3. 應用于7-Zip、xz等壓縮工具的LZM(即Lempel-Ziv-Markov chain)演算法
5.3.4. DEFLATE又應用于PNG影像格式、PKZIP、GZIP等壓縮工具及zlib庫中
5.3.5. PKZip、ARJ、RAR、ZOO和LHarc使用LZSS演算法
5.3.6. 圖

5.4. 真正吸引人的地方還在于它可以和統計編碼結合使用
5.4.1. 將記號中的偏移量、長度值以及字面值分開后,再按照型別合并,組成單獨的偏移量集、長度值集和字面值集,然后再對這些資料集進行統計壓縮
6. LZ演算法的作業原理
6.1. 通過在讀取的字串中尋找當前單詞的匹配來分詞
6.2. 與讀取一組符號然后向后查找它是否重復出現不同
6.2.1. LZ演算法向前查找當前單詞是否出現過
6.3. 在資料流的前半部分,由于我們見過的單詞很少,因此出現新單詞的可能性很大
6.4. 資料流的后半部分,由于已經有了很大的緩沖區,因此出現匹配的可能性更大
6.5. 向前尋找匹配可以讓我們找出“最長的匹配詞”
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555258.html
標籤:其他
上一篇:網路傳輸中的重要引數-簡單的網路畫像
下一篇:返回列表
-
- 標籤雲
-
-
- 熱門瀏覽
-
-
網閘典型架構簡述
網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......
uj5u.com 2020-09-10 02:00:44 more
-
如何從xshell上傳檔案到centos linux虛擬機里
如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......
uj5u.com 2020-09-10 02:00:47 more
-
一、SQLMAP入門
一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......
uj5u.com 2020-09-10 02:00:50 more
-
Metasploit 簡單使用教程
metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......
uj5u.com 2020-09-10 02:00:53 more
-
游戲逆向之驅動層與用戶層通訊
驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......
uj5u.com 2020-09-10 02:00:56 more
-
北斗電力時鐘(北斗授時服務器)讓網路資料更精準
北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......
uj5u.com 2020-09-10 02:01:03 more
-
【CTF】CTFHub 技能樹 彩蛋 writeup
?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......
uj5u.com 2020-09-10 02:04:05 more
-
02windows基礎操作
我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......
uj5u.com 2020-09-10 02:04:18 more
-
03.Linux基礎操作
我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......
uj5u.com 2020-09-10 02:04:30 more
-
05HTML
01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......
uj5u.com 2020-09-10 02:04:36 more
-
- 最新发布
-
-
讀資料壓縮入門筆記05_字典轉換
為了找到資料流的理想分詞,我們需要有某種方法來處理現有的和那些還沒有遇到的符號,并能以一種高效的方式將兩者合并為盡可能長的符號集 ......
uj5u.com 2023-06-16 07:51:51 more
-
網路傳輸中的重要引數-簡單的網路畫像
[toc] 在前兩篇博文對[帶寬](https://www.cnblogs.com/mapleumr/p/17469513.html)、[時延與丟包率](https://www.cnblogs.com/mapleumr/p/17464980.html)有了初步的認識后(引流引流哈哈哈),我們已經可以 ......
uj5u.com 2023-06-16 07:51:21 more
-
SQL查詢面試題,會這些基本夠用了
### 寫在前面 我已經記不起來,有多久沒更新文章了。 5月中旬我還在上班,中旬以后一系列發生的事情,真的遠遠超出了可承受范圍,只能硬著頭皮面對! 我是誰,我應該是誰,又能怎樣,只能向前····· ### 資料庫實體 #### class表 版正式在JetBrains IDEs中上線。和VSCode中的[CodeGeeX2.0](https://codegeex.cn/)升級一樣,新版本在JetBrains IDEs中帶來“[Ask CodeGeeX](h ......
uj5u.com 2023-06-15 08:21:46 more
-
在MacM1上運行ChatGLM-6B推理
1. 簡介 ChatGLM 6B是清華大學和智譜合作的一個62億引數的大語言模型。基于清華的GLM模型開發。和Meta的LLaMA模型還不是一種模型。 由于LLaMA缺乏中文語料,中文能力不佳。在中文大模型中,ChatGLM 6B引數較小,運行硬體要求較低。而表現可謂出色。所以這里作為一個基礎模型先 ......
uj5u.com 2023-06-15 08:21:36 more
-
SRE 的作業介紹
哈嘍大家好,我是咸魚 今天看到了一篇很不錯的文章,作者是一名 SRE 工程師,在 Shopee 作業,base 新加坡 分享出來給大家看看 作者:卡瓦邦噶 原文鏈接:https://www.kawabangga.com/posts/4481 **原文如下:** 有很多人問過我想了解一下 SRE 這個 ......
uj5u.com 2023-06-15 08:21:27 more
-
聲音克隆,精致細膩,人工智能AI打造國師“一鏡到底”鬼畜視頻,基
電影《滿江紅》上映之后,國師的一段采訪視頻火了,被無數段子手惡搞做成鬼畜視頻,誠然,國師的這段采訪文本相當經典,他生動地描述了一個牛逼吹完,大家都信了,結果發現自己沒辦法完成最后放棄,隨后瘋狂往回找補的程序。 最離譜的是,他這段采訪用極其豐富的細節描述了一個沒有發生且沒有任何意義的事情,堪比單口相聲 ......
uj5u.com 2023-06-15 08:21:16 more
-
萬物云原生下的服務進化
在萬物云原生下的環境下,Java的市場份額也因耗資源、啟動慢等缺點,導致在云原生環境里被放大而降低,通過這篇文章,讀者可以更好地了解如何在云原生環境下通過升級相關版本和使用GraalVM打出原生鏡像到方式,優化Java應用的性能和資源利用率,使Java應用更好地適應云原生環境。 ......
uj5u.com 2023-06-15 08:21:02 more
- 友情鏈接
-
-