主頁 >  其他 > 演算法基礎(一):串匹配問題(BF,KMP演算法)

演算法基礎(一):串匹配問題(BF,KMP演算法)

2023-06-10 08:30:38 其他

好家伙,學演算法,

這篇看完,如果沒有學會KMP演算法,麻煩給我點踩

希望你能拿起紙和筆,一邊閱讀一邊思考,看完這篇文章大概需要(20分鐘的時間)

 

我們學這個演算法是為了解決串匹配的問題

那什么是串匹配?

舉個例子:

我要在"彭于晏吳彥祖"這段字串中找到"吳彥祖"字串

這就是串匹配

 

這兩個演算法太抽象了,我們直接做題吧

題目如下:

在A=“abcaaabaabaaac”中查找子串B=“aabaaa”,寫出采用BF演算法和KMP演算法進行串匹配的全程序

 

1.BF(Brute Force,暴力)演算法

暴力演算法,我們從第一位開始進行匹配

  1.1.若匹配成功,則匹配字串"B"的下一位,

  1.2.若匹配失敗,則字串"B"整體向右移動

  直到匹配成功

 

匹配流程圖:

第一次匹配:

 可以看見在進行第二個字符"a"的匹配時,匹配失敗,字串"B"整體右移

 

第二次匹配:

 

第三次匹配:(不想畫圖..)

 

第四次匹配:

 

第五次匹配:

第六次匹配(不想畫圖....算了還是畫吧):

 

第七次匹配:

 

直到第八次:

直到全部字串B全部匹配成功(又或者出現無法匹配的情況)

 

看看代碼實作:

#include <stdio.h>
#include <string.h>

int find_substring(char *A, char *B) {
    int m = strlen(A); // A串長度
    int n = strlen(B); // B串長度
    int i, j;
    for (i = 0; i <= m - n; i++) { // i表示在A串中從第i開始查找子串B
        for (j = 0; j < n; j++) { // j表示在B串中與A串中的字符逐個比較
            if (A[i+j] != B[j]) // 不匹配則退出j回圈
                break;
        }
        if (j == n) // 如果B串全部匹配,則回傳A串中子串B第一次出現的位置
            return i;
    }
    return -1; // 如果沒有匹配成功,則回傳-1
}

int main() {
    char A[] = "abcaaabaabaaac";
    char B[] = "aabaaa";
    int index = find_substring(A, B);
    if (index >= 0)
        printf("子串B在A中第一次出現的位置是:%d\n", index);
    else
        printf("A中沒有子串B\n");
    return 0;
}

嗯,看上去毫無技術含量

核心演算法部分兩個for回圈寫完了

 接下來進入本篇的主要內容

 

2.KMP(Knuth Morris Pratt演算法)

這個演算法是以人名命名的,那么,做好心理準備,這必然會有一定難度

 

2.1.我想偷懶(演算法優化)

在前面BF演算法的推演中,相信聰明的你一定察覺到了某些步驟看上去很多余

  2.1.1.情況一

  回到前面的推演

  如果我們用"人"的思維去進行字串匹配,會發現

  第六次匹配和第七次匹配完全是可以省略的,

  我直接跳到"那個看上去正確"的位置

  這么做是對的,可是這沒有確切依據,憑借的是"直覺"

 

  2.2.2.情況二

  你也可能會有這樣的想法:

  我把已經配對過的字符全部跳過

     "將匹配過的字符都跳過 "   

  于是,直接從第五次匹配跳到第十次匹配

  直接跳到第十次匹配:

  雖然達到了偷懶的目的,但錯過了正確的答案

  但你同樣需要記住這個錯誤的情況

  這有助于后續的理解

 

2.2.路標(部分匹配值表)

在前面,你知道,你不想達成情況二,你想要達成情況一

這時,你需要有個路標給你指示

(這或許是個不太好的比喻,

假設你現在吃壞肚子了,在某個大型的廣場找廁所,你會怎么辦?

我會抬頭去找每個分岔路口的識別符號,

你看見識別符號了,在那邊..)

 

這時候,我把我的字串"B"的路標給你(后面會解釋路標怎么來的)

 

部分匹配值表:

 

 

然后這個表該怎么用呢?

當匹配失敗后,字串"B"的移動位數P等于已匹配字串數減去對應匹配值

比如說在第五次匹配中,

 

事實上,它移動的位數P = 已匹配字串數  - 部分匹配值表對應匹配值

也就是 P = 5 - 2 = 3

而我們在推演中,也確實移動了3位

 

2.3.路標(部分匹配值表)的計算

這時候你開始疑問了?哥們,你這表怎么來的?

就兩個字"規律"

看看這字串吧"aabaaa"我們試圖從中找出{已匹配字串數}與{字串B}的聯系

"前綴"和"后綴", (1)"前綴"指除了最后一個字符以外,一個字串的全部頭部組合;

                            (2)"后綴"指除了第一個字符以外,一個字串的全部尾部組合

 

"前綴"和"后綴"的最長的共有元素的長度

當{已匹配字串數}為1,"a"的前綴為空,                        后綴為空                                 共有元素長度為0

當{已匹配字串數}為2,"aa"的前綴為[a],                   后綴為[a],                                共有元素長度為1

當{已匹配字串數}為3,"aab"的前綴為[a,aa],            后綴為[b,ab],                           共有元素長度為0

當{已匹配字串數}為4,"aaba"的前綴為[a,aa,aab],        后綴為[a,ba,aba],                    共有元素長度為1

當{已匹配字串數}為5,"aabaa"的前綴為[a,aa,aab,aaba],     后綴為[a,aa,baa,abaa],           共有元素長度為2

當{已匹配字串數}為6,"aabaaa"的前綴為[a,aa,aab,aaba,aabaa],后綴為[a,aa,aaa,baaa,abaaa],共有元素長度為2,但是這已經無所謂,當匹配完成,部分匹配值表不再被需要

 

此時我們把共有元素填到表中,就得到了我們的"路標"表,當然了,他真正的名字是"部分匹配值表"

 

這時你會有兩個疑問:

1.子串B=“aabaaa”的部分匹配值表為什么與A=“abcaaabaabaaac”是否有關?為什么?

答:無關

在KMP演算法中計算子串B的部分匹配表時,我們只需要關注B本身,而不需要考慮B要在哪個字串中進行匹配

具體而言,部分匹配值的計算是通過B串本身的前綴和后綴來確定的,并不依賴于任何與B進行匹配的字串的特定屬性,

因此,子串B的部分匹配值表與A字串中的字符內容和長度無關,可以在不考慮主串A的情況下,完全獨立地計算出B的部分匹配值表,

 

2.為什么要如此麻煩地使用KMP演算法,而不是使用更為方便地BF演算法?

來吧,演算法永遠離不開的好朋友,時間復雜度O()

  2.1.現在假設字串A,B的長度分別為n,m

(1)BF演算法

BF演算法如此暴力,他的時間復雜度自然也很暴力,

不考慮最好最壞,平均的情況:在文本串和模式串的匹配字符數量較為相等的情況下,BF演算法的時間復雜度為O(nm/2),也就是O(nm)

 

(2)KMP演算法

考慮最好最壞情況

    • 最好的情況:當文本串和模式串的匹配字符非常少時,KMP演算法的時間復雜度為O(n),其中n是文本串的長度,

    • 最壞的情況:當文本串和模式串匹配字符非常多且不匹配時,KMP演算法的時間復雜度為O(n+m),其中n是文本串的長度,m是模式串的長度,

    • 平均的情況:在文本串和模式串的匹配字符數量比較接近的情況下,KMP演算法的時間復雜度為O(n+m)

 

你看見了嗎? nm和n+m,直接少了一個數量級,以人名命名的演算法還是有點東西的

所以,結論:因為KMP演算法的時間復雜度遠低于BF演算法,KMP演算法更高效

 

好了你已經掌握了KMP演算法思想的百分之七十了,其中最核心的部分匹配值表你已經掌握了

接下來的內容,是關于代碼實作的

 

2.4.next()陣列

這是便于代碼實作和使用的{部分匹配值表}版本,它本質上還是部分匹配值表

既然是不同版本,那么它一定會遵循某些規則

部分匹配表為[ 0 1 0 1 2 0 ],則對應的next陣列為[ -1 0 1 0 1 2],

具體操作:整體右移,然后首位賦值為-1

(1)第一步:整體右移

(2)第二步:首位賦值-1,

在KMP演算法中,next陣列的第一個元素next[0]的值必須為-1,

這是因為在演算法中需要將待匹配串移動1個位置,如果next[0]的值為0,則下一次匹配就會跳過第一個字符,進入一個錯誤的狀態,

而將next[0]設定為-1,則下一次匹配將從第一個字符開始,以正確的方式繼續匹配,

 

又或者我們以另一種方式去理解:

 

第二種理解方式:

我們依舊使用那個方法去計算字串匹配失敗后移動的位數,移動位數P = 已配對字串數 - next[i]

所以 如果一個字符都沒配對,也就是匹配的字串為0那么 移動位數 P = 已配對字串數 - next[0] = 0 - (-1) = 1

   如果配對了5個字符,那么 移動位數 P = 已配對字串數 - next[5] = 5 - 2 = 3

 如果還是理解不了,試著自己做題,或者上機試試

例題:A="aabbaabbaaabaac" B="aaabaa" 寫出他的部分匹配表和next[]陣列,并寫出它匹配的程序

 

 

2.5.代碼實作KMP演算法

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void getNext(char* p, int* next, int n);

/* 在A中查找子串B的位置 */
int kmp_search(char* A, int n, char* B, int m)
{
    int i = 0, j = 0;
    int *next = (int*)malloc(sizeof(int) * m); // 申請next陣列
    getNext(B, next, m); // 計算B串的next陣列

    while (i < n && j < m) { // 從頭到尾掃描A串和B串
        if (j == -1 || A[i] == B[j]) { // 匹配成功或者失配
            i++;
            j++;
        } else {
            j = next[j]; // 失配時根據next陣列調整j的位置
        }
    }
    free(next); // 釋放申請的空間
    if (j == m) { // 匹配成功
        return i - m;
    } else { // 匹配失敗
        return -1;
    }
}

/* 計算模式串的next陣列 */
void getNext(char* p, int* next, int n)
{
    int j = 0, k = -1;
    next[0] = -1; // next陣列的第一個值為-1

    while (j < n - 1) { // 計算next陣列
        if (k == -1 || p[j] == p[k]) { // 相等情況
            j++;
            k++;
            next[j] = k;
        } else {
            k = next[k]; // 不相等情況,回溯(k指標回溯)
        }
    }
}

int main()
{
    char A[] = "abcaaabaabaaac";
    char B[] = "aabaaa";
    int lenA = strlen(A); // 計算A的長度
    int lenB = strlen(B); // 計算B的長度

    int pos = kmp_search(A, lenA, B, lenB); // 在A中查找B的位置

    if (pos == -1) {
        printf("在A中沒找到B!\n");
    } else {
        printf("在A中找到B, 位置為 %d\n", pos);
    }

    return 0;
}

 

 

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/554796.html

標籤:其他

上一篇:華為云 UCS GitOps:輕松交付多集群云原生應用

下一篇:返回列表

標籤雲
其他(160714) Python(38219) JavaScript(25489) Java(18216) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7241) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4589) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1956) Web開發(1951) C++(1933) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1880) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 演算法基礎(一):串匹配問題(BF,KMP演算法)

    好家伙,學演算法, 這篇看完,如果沒有學會KMP演算法,麻煩給我點踩 希望你能拿起紙和筆,一邊閱讀一邊思考,看完這篇文章大概需要(20分鐘的時間) 我們學這個演算法是為了解決串匹配的問題 那什么是串匹配? 舉個例子: 我要在"彭于晏吳彥祖"這段字串中找到"吳彥祖"字串 這就是串匹配 這兩個演算法太抽象了 ......

    uj5u.com 2023-06-10 08:30:38 more
  • 華為云 UCS GitOps:輕松交付多集群云原生應用

    摘要:使用華為云 UCS GitOps 配置管理來交付您的多云應用。 本文分享自華為云社區《華為云 UCS GitOps:輕松交付多集群云原生應用》,作者:華為云云原生團隊。 隨著業務的全球化發展和應用多元化部署的趨勢,越來越多的客戶選擇通過混合云、多云模式來進行業務部署。選擇多云進行部署可以提高部 ......

    uj5u.com 2023-06-10 08:30:14 more
  • Top 5 Best Open Source Projects on GitHub 2023

    這里介紹Github上 5 個增長最快的開源專案,它們為原有的解決方案提供了更加具有成本效益的替代方案,并為開發者、資料分析師和企業提供了高可用的工具產品。利用開源的優勢,這5個專案拓展了強大而有效的解決方案,是值得收藏、分享以及探索嘗試的。 **1. ChatGLM-6B:Open Source ......

    uj5u.com 2023-06-10 08:29:59 more
  • 實體講解Flink 流處理程式編程模型

    摘要:在深入了解 Flink 實時資料處理程式的開發之前,先通過一個簡單示例來了解使用 Flink 的 DataStream API 構建有狀態流應用程式的程序。 本文分享自華為云社區《Flink 實體:Flink 流處理程式編程模型》,作者:TiAmoZhang 。 在深入了解 Flink 實時數 ......

    uj5u.com 2023-06-10 08:29:43 more
  • 差分陣列詳解

    **一維差分陣列** 假設給你一個陣列 nums ,先對區間 [a,b] 中每個元素加 3 ,在對區間 [c,d] 每個元素減 5 …… ,這樣非常頻繁的區間修改,常規的做法可以一個個計算。 ```java public void increment(int[] nums, int a, int b ......

    uj5u.com 2023-06-10 08:29:33 more
  • 帶你體驗AI系列之云原生最佳實踐--免費體驗GPT-4教程

    ## 前言 ? 【GPT-4】是OpenAI最新推出的大型語言模型,它支持影像和文本輸入,以文本形式輸出。它比GPT-3.5更大、更強、更猛。最重要的是據與研究表明,他在某些場景下,可以通過圖靈測驗。但是,卻缺點是收費,不像GPT-3.5那樣容易白嫖。不過今天我就帶你嫖一手,真香警告!本教程可稱為云 ......

    uj5u.com 2023-06-10 08:28:49 more
  • ChatGPT的原理與前端領域實踐

    ## 一、ChatGPT 簡介 ### ChatGPT的火爆 ChatGPT作為一個web應用,自22年12月發布,僅僅不到3個月的時間,月活用戶就累積到1億。在此之前,最快記錄的保持者也需要9個月才達到月活1億。 ![](https://p3-juejin.byteimg.com/tos-cn-i ......

    uj5u.com 2023-06-10 08:28:39 more
  • Top 5 Best Open Source Projects on GitHub 2023

    這里介紹Github上 5 個增長最快的開源專案,它們為原有的解決方案提供了更加具有成本效益的替代方案,并為開發者、資料分析師和企業提供了高可用的工具產品。利用開源的優勢,這5個專案拓展了強大而有效的解決方案,是值得收藏、分享以及探索嘗試的。 **1. ChatGLM-6B:Open Source ......

    uj5u.com 2023-06-10 08:28:24 more
  • 使用numpy計算分子內坐標

    本文主要介紹了在numpy的框架下實作的分子內坐標的計算,類似的方法可以應用于MindSpore和Pytorch、Jax等深度學習相關的框架中。分子的內坐標,可以更加直觀的描述分子內的相對運動,通過鍵長鍵角和二面角這三個引數。 ......

    uj5u.com 2023-06-10 08:28:14 more
  • 邊緣計算簡介

    本文分享自天翼云開發者社區《邊緣計算簡介》,作者:張****亮 邊緣計算是一種新興的計算模型,旨在將計算能力推向離用戶更近的邊緣設備,以提供更快速、可靠和低延遲的計算服務。在傳統的云計算模式中,大部分計算任務都是集中在遠程的資料中心進行處理,這可能導致網路延遲和帶寬瓶頸。邊緣計算通過在離用戶更近的邊 ......

    uj5u.com 2023-06-10 08:27:59 more