主頁 >
其他 > 讀資料壓縮入門筆記05_字典轉換
讀資料壓縮入門筆記05_字典轉換
2023-06-16 08:14:39 其他

1. 瓶頸
1.1. 在網路帶寬有限、存盤昂貴的時期
1.2. 移動設備正日益成為人們訪問互聯網的首選的今天
1.3. 資料壓縮成了緩解這些瓶頸的關鍵
2. 字典轉換
2.2. 完全改變了人們對資料壓縮的認知
2.2.1. 壓縮變成了一種對各種型別的資料都有用的演算法
2.3. 事實上今天所有的主流壓縮演算法(比如GZIP或者7-Zip)都會在核心轉換步驟中使用字典轉換
3. 基本字典轉換
3.1. 統計壓縮主要關注資料流中單個符號的出現概率
3.2. 這一概率與其周圍可能出現的符號無關
3.3. 符號字典
3.4. 任何出現可以重復使用的相似內容分組的地方,都會有“短語”存在
3.5. 步驟
3.5.1. 給定源資料流
3.5.2. 構建出單詞字典(而不是符號字典)
3.5.3. 再將統計壓縮應用到字典中的單詞上
3.6. 字典轉換并非是要去替代統計編碼
3.6.1. 只是你先應用到資料流上的一個轉換,這樣統計編碼演算法就能更有效地對其編碼
3.7. 實際是一個資料流的預處理階段
3.7.1. 生成的資料集會更小,比源資料流壓縮率更高
3.8. 當能識別出那些經常重復使用的長字串,并為它們分配最短的碼字時,字典轉換的效率最高
4. 分詞
4.1. tokenization
4.2. 是資訊論領域的一個研究分支
4.3. 一種暴力方法是讀取一組符號并搜索字串的剩余部分來確定該組符號的出現頻次
4.3.1. 對所有真實的資料流而言,這樣做不僅需要大量的記憶體,同時還需要花費很長的時間
4.4. 為了找到資料流的理想分詞,我們需要有某種方法來處理現有的和那些還沒有遇到的符號,并能以一種高效的方式將兩者合并為盡可能長的符號集
5. LZ演算法
5.1. 1977年,Abraham Lempel和Jacob Ziv提出
5.1.1. Jacob Ziv大學畢業于以色列理工學院,隨后于1961年獲得了麻省理工學院資訊論專業的博士學位
5.1.2. Abraham Lempel在以色列理工學院獲得了學士、碩士和博士學位
5.1.3. 1997年獲得了IEEE資訊理論學會的香農獎
5.2. LZ77 和LZ78
5.2.1. 找出最佳分詞方面非常高效,30多年來還沒有其他演算法可以取代它們
5.3. 衍生演算法
5.3.1. 每一種變體都是根據特殊的需要、性能要求的不同或者用例的不同,對LZ77基本演算法進行了一些小調整
5.3.1.1. 對資料集越了解,你就越能從中選擇出最適合的LZ變換
5.3.2. GIF影像格式中使用的LZW(即Lempel-Ziv-Welch)演算法
5.3.2.1. Terry Welch于1984年提出的,它采用了LZ78演算法的思想
5.3.2.2. 首個在計算機中廣泛采用的通用資料壓縮方法
5.3.3. 應用于7-Zip、xz等壓縮工具的LZM(即Lempel-Ziv-Markov chain)演算法
5.3.4. DEFLATE又應用于PNG影像格式、PKZIP、GZIP等壓縮工具及zlib庫中
5.3.5. PKZip、ARJ、RAR、ZOO和LHarc使用LZSS演算法
5.3.6. 圖

5.4. 真正吸引人的地方還在于它可以和統計編碼結合使用
5.4.1. 將記號中的偏移量、長度值以及字面值分開后,再按照型別合并,組成單獨的偏移量集、長度值集和字面值集,然后再對這些資料集進行統計壓縮
6. LZ演算法的作業原理
6.1. 通過在讀取的字串中尋找當前單詞的匹配來分詞
6.2. 與讀取一組符號然后向后查找它是否重復出現不同
6.2.1. LZ演算法向前查找當前單詞是否出現過
6.3. 在資料流的前半部分,由于我們見過的單詞很少,因此出現新單詞的可能性很大
6.4. 資料流的后半部分,由于已經有了很大的緩沖區,因此出現匹配的可能性更大
6.5. 向前尋找匹配可以讓我們找出“最長的匹配詞”
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555281.html
標籤:其他
上一篇:網路傳輸中的重要引數-簡單的網路畫像
下一篇:返回列表
-
- 標籤雲
-
-
- 熱門瀏覽
-
-
網閘典型架構簡述
網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......
uj5u.com 2020-09-10 02:00:44 more
-
如何從xshell上傳檔案到centos linux虛擬機里
如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......
uj5u.com 2020-09-10 02:00:47 more
-
一、SQLMAP入門
一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......
uj5u.com 2020-09-10 02:00:50 more
-
Metasploit 簡單使用教程
metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......
uj5u.com 2020-09-10 02:00:53 more
-
游戲逆向之驅動層與用戶層通訊
驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......
uj5u.com 2020-09-10 02:00:56 more
-
北斗電力時鐘(北斗授時服務器)讓網路資料更精準
北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......
uj5u.com 2020-09-10 02:01:03 more
-
【CTF】CTFHub 技能樹 彩蛋 writeup
?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......
uj5u.com 2020-09-10 02:04:05 more
-
02windows基礎操作
我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......
uj5u.com 2020-09-10 02:04:18 more
-
03.Linux基礎操作
我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......
uj5u.com 2020-09-10 02:04:30 more
-
05HTML
01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......
uj5u.com 2020-09-10 02:04:36 more
-
- 最新发布
-
-
讀資料壓縮入門筆記05_字典轉換
為了找到資料流的理想分詞,我們需要有某種方法來處理現有的和那些還沒有遇到的符號,并能以一種高效的方式將兩者合并為盡可能長的符號集 ......
uj5u.com 2023-06-16 08:14:39 more
-
網路傳輸中的重要引數-簡單的網路畫像
[toc] 在前兩篇博文對[帶寬](https://www.cnblogs.com/mapleumr/p/17469513.html)、[時延與丟包率](https://www.cnblogs.com/mapleumr/p/17464980.html)有了初步的認識后(引流引流哈哈哈),我們已經可以 ......
uj5u.com 2023-06-16 08:05:27 more
-
k8s實戰案例之基于StatefulSet控制器運行MySQL一主多從
StatefulSet本質上是Deployment的?種變體,在v1.9版本中已成為GA版本,它為了解決有狀態服務的問題,它所管理的Pod擁有固定的Pod名稱,啟停順序,在StatefulSet中,Pod名字稱為?絡標識(hostname),還必須要?到共享存盤。在Deployment中,與之對應的... ......
uj5u.com 2023-06-16 08:00:11 more
-
UE開發使用Rider時快取干爆C盤的解決方案
我們在使用Rider開發UE時,Ride會為每一個專案創建一個解決方案快取,如果開幾個新專案寫測驗demo,我們的C盤會逐漸捉急 ![默認情況下](https://img2023.cnblogs.com/blog/2003597/202306/2003597-20230615183008462-89 ......
uj5u.com 2023-06-16 07:59:58 more
-
大促質量備戰之三化戰役:“常態化、精細化、一體化”
大促作為JD一年兩度的盛事,質量備戰是不可或缺的重要環節。每逢大促都是一次大型的聯合戰役,在這種戰役中,不僅有各種“海陸空”技術爭奇斗艷,還會讓我們的技術視野變得更寬闊,讓我們協同變得更默契,所謂以戰養兵。測驗團隊作為質量備戰團隊,沉淀了“常態化”、“精細化”、“一體化”的三化備戰策略,希望與君共勉... ......
uj5u.com 2023-06-16 07:59:52 more
-
web基礎與HTTP協議
目錄 一、DNS 二、域名 三、web基礎 四、HTTP 五、總結 摘要:簡單敘述web基礎,網頁的概念,域名決議,域名結構,HTML超文本傳輸語言,cookie和session擴展 一、DNS 1.DNS概念 內網和外網無法通信,為了內網可以和外網通信,dns技術解決問題,可以將公網和私網互相通信 ......
uj5u.com 2023-06-16 07:59:35 more
-
SQL查詢面試題,會這些基本夠用了
### 寫在前面 我已經記不起來,有多久沒更新文章了。 5月中旬我還在上班,中旬以后一系列發生的事情,真的遠遠超出了可承受范圍,只能硬著頭皮面對! 我是誰,我應該是誰,又能怎樣,只能向前····· ### 資料庫實體 #### class表 ![image.png](https://p6-jueji ......
uj5u.com 2023-06-16 07:58:43 more
-
科普|一文看懂虛擬人技術原理
本文作者來自即構開發者社區@ Daniel 投稿,為我們分享時下熱門的數字人技術。IDC 預計,到 2026 年,中國 AI 數字人市場規模將達到 102.4 億元。開發者有必要對數字人技術有完整的認知和理解。 ......
uj5u.com 2023-06-16 07:58:35 more
-
Open AI ChatGPT Prompt 學習之基礎篇
2023 年,最火的可能就是 openAI 了,其組織代表的產品 chatGTP,相信大家已經有所耳聞。不少同學已經開始著手使用,并截圖曬出 ChatGPT 是多么得智能與神奇。而有的同學在使用之后覺得有點差強人意,指出頂多算是一個比較聰明的聊天機器人而已。
其實,ChatGPT 的難點,在于 P... ......
uj5u.com 2023-06-16 07:58:31 more
-
批量生成,本地推理,人工智能聲音克隆框架PaddleSpeech本地批量克
云端煉丹固然是極好的,但不能否認的是,成本要比本地高得多,同時考慮到深度學習的訓練相對于推理來說成本也更高,這主要是因為它需要大量的資料、計算資源和時間等資源,并且對超引數的調整也要求較高,更適合在云端進行。 在推理階段,模型的權重和引數不再調整。相反,模型根據輸入資料的特征進行計算,并輸出預測結果 ......
uj5u.com 2023-06-16 07:58:24 more
- 友情鏈接
-
-