主頁 >  其他 > 讀資料壓縮入門筆記02_二進制和熵

讀資料壓縮入門筆記02_二進制和熵

2023-05-30 07:54:26 其他

1. 十進制

1.1. 現代數學建立在十進制計數系統之上

2. 二進制

2.1. 二進制計數系統的作業原理與十進制計數系統一樣,唯一的區別是前者的基數為2,而后者的基數為10

2.2. 資料壓縮所做的就是盡可能減少表示特定資料集時所需的二進制位數量

2.3. 給定任意一個整數,我們都能將它轉換為二進制形式

3. 十六進制

3.1. 用字母A來表示10,用B表示11,以此類推,用F表示15

4. 資訊論

4.1. 一個數值所包含的資訊內容等于,為了在一個集合中唯一地確定這個數值,需要做出的二選一(是/否)決定的次數

5. 二分查找

5.1. 首先將陣列中的資料集分成兩半,然后判斷要找的數值10比處于中間位置的樞軸值是大還是小

5.2. 如果一個陣列包含偶數個元素,那么真正處于中間的元素是不存在的,可以根據喜好沖中間偏左或者偏右選擇一個

6. 熵

6.1. 物理學中的解釋

6.1.1. 一個熱力學量,表示的是一個系統中無法轉換為機械功的熱能的量,通常被解釋為該系統的無序度或隨機度

6.2. 資訊論中的解釋

6.2.1. 對在特定的訊息或語言中資訊傳輸速度的一種對數度量

6.3. 表示一個數所需要的最少二進制位數

6.4. 一個數所需要的二進制位數lb(x)=(log(x)/log(2))

6.4.1. 二進制位已經是資料的最小單位,能使用的最小的二進制位數就是1

6.4.2. 必須對這個值向上取整,也就是使用向上取整函式,即ceil(或ceiling)函式

6.5. LOG2(x)=ceil(log(x+1)/log(2))

6.6. 一個集合的熵

6.6.1. H(S)=-∑pi×lb(pi)

6.7. 為了使表示某個資料集所需的二進制位數最少,資料集中的每個符號平均所需的最小二進制位數就是熵

6.8. 以一種倒排序的方式建立在資料流中每個符號出現概率的估算之上的

6.8.1. 一個符號出現得越頻繁,它對整個資料集包含的資訊內容的貢獻就會越少

6.8.2. 很長的時間里沒有什么有用的資訊,真正有用的資訊偶爾才會出現

7. 資料壓縮演算法的藝術

7.1. 真正試圖去突破熵的限定

7.2. 將資料轉換成一種熵值更小的、新的表現形式

8. 突破熵

8.1. 按照香農對熵的定義,他只考慮了符號出現的概率,完全沒有考慮符號之間的排序

8.1.1. 對真實資料集來說,排序是一項基本的資訊,符號之間的關系同樣如此

8.2. 通過利用資料集的結構資訊將其轉換為一種新的表示形式,而這種新表示形式的熵比源資訊的熵小

8.2.1. [Q,U,A,R,K] 和[K,R,U,Q,A] 這兩個集合有相同的熵

8.2.2. [Q,U,A,R,K] 這個集合表示的是英語中一個有意義的單詞

8.3. 增量編碼(delta coding)

8.3.1. 如果相鄰的值之間高度相關,那么用增量編碼的方法可以轉換資料,使其熵變得更小

8.3.2. 順序很重要

8.4. 符號分組

8.4.1. 用單詞作為符號,得到的熵值會更小

8.4.2. 如果資料集中存在連續值組合出現多次的情況,就可以利用這種情況來減小熵

8.4.3. 通過最佳符號分組預處理資料,會得到一個較小的熵值

8.5. 排列

8.5.1. 一個排列就是原來的集合打亂順序后的一個版本

8.5.2. 對數直接進行編碼時,共需要24個二進制位,而對下標編碼時,只需要18個二進制位,也就是節省了大約25% 的空間

9. 標準的數字長度

9.1. 用最少的二進制位數來表示一個數,在解碼相應的二進制字串時會產生混亂(因為我們并不知道該數對應的LOG2長度),會與硬體的執行性能相沖突,兩者不能兼顧

9.2. 折中的方案

9.2.1. 用固定長度的二進制位數來表示大小不同的整數

9.2.2. 最基本的存盤單元是一個位元組,由8個二進制位組成

9.3. 資訊論與實際實作層面的差別

9.3.1. 絕大多數演算法使用預先設定好的固定的二進制位長度,而不是通過LOG2函式計算出的二進制位長度

10. 柯爾莫哥洛夫復雜性

10.1. Kolmogorov complexity

10.2. 以數學家安德雷?柯爾莫哥洛夫(Andrey Kolmogorov)的名字命名,以紀念他在1963年發表了這方面的第一篇論文

10.3. 度量的是確定一個物件所需要的計算資源

10.3.1. 為了準確地生成資料,所需要的生成程式的大小

10.4. 任何字串的柯爾莫哥洛夫復雜性頂多比字串本身的長度大幾個位元組(基本上,也就是一個程式輸出字串的每個元素)

10.5. 邏輯綜合(logic synthesis)或者程式綜合(program synthesis)進行資料壓縮的時候,柯爾莫哥洛夫復雜性就開始真正起作用了

10.5.1. 本質上它取的是資料集以及反向生成產生字串的程式的二進制位流

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/553772.html

標籤:其他

上一篇:蘋果公司限制員工使用AI工具ChatGPT

下一篇:返回列表

標籤雲
其他(159964) Python(38185) JavaScript(25462) Java(18151) C(15233) 區塊鏈(8268) C#(7972) AI(7469) 爪哇(7425) MySQL(7215) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5344) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4578) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1977) 功能(1967) Web開發(1951) HtmlCss(1949) C++(1926) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1862) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 讀資料壓縮入門筆記02_二進制和熵

    ![](https://img2023.cnblogs.com/blog/3076680/202305/3076680-20230529164021272-2028393854.png) # 1. 十進制 ## 1.1. 現代數學建立在十進制計數系統之上 # 2. 二進制 ## 2.1. 二進制計數 ......

    uj5u.com 2023-05-30 07:54:26 more
  • 蘋果公司限制員工使用AI工具ChatGPT

    蘋果公司最近發布了一份內部備忘錄,禁止員工使用生成式AI平臺(包括ChatGPT和GitHub的Copilot等)用于作業任務 ......

    uj5u.com 2023-05-30 07:54:13 more
  • 2.2. 繼承與多型

    繼承和多型是面向物件編程的兩個重要概念,它們使得我們可以創建更加通用、可擴展的代碼。 #### 2.2.1. 繼承 繼承是一種創建新類的方式,新類(子類)從現有類(父類)繼承屬性和方法。子類可以重寫或擴展父類的功能。 要創建一個子類,可以使用 `extends` 關鍵字: ```java class ......

    uj5u.com 2023-05-30 07:54:03 more
  • UE 油畫濾鏡

    # 前言 - 非真實感渲染的風格不經相同,其中一種便是油畫風格,本文總結了如何實作油畫濾鏡的方法 ![宮崎駿動漫場景油畫iPad壁紙 - tt98圖片網](https://img2023.cnblogs.com/blog/2487253/202305/2487253-2023052920372475 ......

    uj5u.com 2023-05-30 07:53:31 more
  • 云原生周刊:使用 ChatGPT 提高安全性

    雖然 ChatGPT 最近因網路犯罪分子使用該技術加強攻擊而成為負面新聞,但它也可以成為網路防御的強大資產,幫助公司最大限度地提高安全態勢,同時彌合其員工的技能差距。 云安全聯盟 (CSA) 最近發布了一份白皮書,詳細研究了 ChatGPT 的攻防潛力。CSA 技術研究總監Sean Heide是該論 ......

    uj5u.com 2023-05-30 07:53:11 more
  • 2.1. 類與物件

    在 Java 中,類和物件是面向物件編程的基本構建塊。類是一種模板,用于定義物件的屬性和行為。物件是類的實體,具有類定義的屬性和行為。 #### 2.1.1. 類的定義 要定義一個類,可以使用以下語法: ```java class ClassName { // 成員變數(屬性) // 成員方法(行為 ......

    uj5u.com 2023-05-30 07:53:04 more
  • GPT虛擬直播Demo系列(二)|無人直播間實作虛擬人回復粉絲

    虛擬人和數字人是人工智能技術在現實生活中的具體應用,它們可以為人們的生活和作業帶來便利和創新。在直播間場景里,虛擬人和數字人可用于直播主播、智能客服、營銷推廣等。接入GPT的虛擬人像是加了超強buff,具備更強大的自然語言處理能力和智能對話能力,可以實作更加智能化、自然化的人機互動。
    - 直播主播:... ......

    uj5u.com 2023-05-30 07:52:58 more
  • 揭秘“AI換臉”詐騙背后,黑灰產使用的手段

    ![image](https://img2023.cnblogs.com/blog/1520018/202305/1520018-20230529164725586-844276157.gif) 近日,警方通報了一起使用智能AI技術進行電信詐騙的案件。被騙者是福州市某科技公司法人代表郭先生,他通過微 ......

    uj5u.com 2023-05-30 07:52:46 more
  • AI實戰營環境配置-快速安裝

    # AI實戰營環境配置-快速安裝 [toc] ## 📕前言 介紹如何快速配置實戰營實戰專案的所依賴環境,分本地配置和服務器配置。 ## 🔧本地配置環境 ### mmpretrain - github:https://github.com/open-mmlab/mmpretrain - 快速安裝: ......

    uj5u.com 2023-05-30 07:52:33 more
  • 面對AI時代潮流,測驗人應該如何應對?

    首先一定要知道AI相關知識,測驗人員需要了解AI的基本概念、機器學習演算法和資料科學等方面的知識,這有助于更好地理解和測驗AI系統。同時測驗人員需要了解和掌握AI測驗工具,包括自動化測驗工具、模型評估工具和資料生成工具等。 ......

    uj5u.com 2023-05-30 07:52:21 more