前言
最近專案上需要用到搜索引擎,由于之前自己沒有了解過,所以整理了一下搜索引擎的相關概念知識,
正文
想查資料就免不了搜索,搜索就離不開搜索引擎,百度、谷歌都是一個非常龐大復雜的搜索引擎,他們幾乎索引了互聯網上開放的所有網頁和資料,然而對于我們自己的業務資料來說,肯定就沒必要用這么復雜的技術了,如果我們想實作自己的搜索引擎,方便存盤和檢索,可以快速地儲存、搜索和分析海量資料,搜索引擎有很多種,我這里主要講兩種比較流行的搜索引擎框架 Elasticsearch 和 Lucene 搜索引擎,
一、搜索引擎實作核心
Lucene/Elasticsearch 實作快速搜索的核心就是倒排索引,Lucene/Elasticsearch 就是盡量將磁盤里的東西搬進記憶體,減少磁盤隨機讀取次數(同時也利用磁盤順序讀特性),結合各種壓縮演算法,高效使用記憶體,從而達到快速搜索的特性,
核心概念:https://www.cnblogs.com/valor-xh/p/6206042.html
? https://blog.csdn.net/sinat_42338962/article/details/85227902
二、Lucene搜索引擎
百度百科:是 Apache 軟體基金會4 Jakarta專案組的一個子專案,是一個開放源代碼的全文檢索引擎工具包(實際就是一個 Jar 包),但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,Lucene 是一套資訊檢索工具包,并不包含搜索引擎系統,它包含了索引結構、讀寫索引工具、相關性工具、排序等功能,因此在使用 Lucene 時仍需要關注搜索引擎系統,例如資料獲取、決議、分詞等方面的東西,Lucene 提供了一個簡單卻強大的應用程式介面,能夠做全文索引和搜尋,
Lucene,最先進、功能最強大的搜索庫,直接基于Lucene開發,非常復雜,Api復雜(實作一些簡單的功能,寫大量的java代碼),需要深入理解原理(各種索引結構),Lucene只是一個庫,想要使用它,你必須使用Java來作為開發語言并將其直接集成到你的應用中,更糟糕的是,Lucene的配置及使用非常復雜,你需要深入了解檢索的相關知識來理解它是如何作業的,
三、ElasticSearch搜索引擎
百度百科:ElasticSearch 是一個基于 Lucene 的搜索服務器,它提供了一個分布式多用戶能力的全文搜索引擎,基于 RESTful web 介面,Elasticsearch 是用Java語言開發的,并作為Apache許可條款下的開放原始碼發布,是一種流行的企業級搜索引擎,ElasticSearch 用于云計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便,
ElasticSearch 的實作原理主要分為以下幾個步驟,首先用戶將資料提交到Elastic Search 資料庫中,再通過分詞控制器去將對應的陳述句分詞,將其權重和分詞結果一并存入資料,當用戶搜索資料時候,再根據權重將結果排名,打分,再將回傳結果呈現給用戶,
Elasticsearch,基于 Lucene,隱藏復雜性,提供簡單易用的R estful Api 介面、Java Api 介面(還有其他語言的Api 介面)
-
分布式的檔案存盤引擎
-
分布式的搜索引擎和分析引擎
-
分布式,支持PB級資料
四、Lucene和ElasticSearch優缺點對比
這兩種搜索引擎各自都有自己的特點,現在我來總結一下:
聯系:ElasticSearch 封裝了 Lucene,讓使用變得更簡單,ElasticSearch 除了擁有Lucene 所有優點以外,還有自己的優點:
可用性:支持集群沒有單點障礙,
擴展性:支持集群擴展-高并發
在集群環境中使用:大專案使用
- ElasticSearch全文檢索服務器,所有專案都統一訪問索引服務器,支持在集群環境中使用, Lucene全文檢索引擎工具包,必須集成到專案中使用,不支持在集群環境下使用,
- ElasticSearch支持多種語言,Lucene只支持java
- ElasticSearch簡單,都是http請求,而Lucene復雜,都需要呼叫API執行一大推操作,
- 一般Lucene在中小型專案中使用,ElasticSearch都適用(大中小),因為ES支持在集群環 境中使用,并且自身也支持集群,
- Luncene需要二次開發,才能使用,不能像百度或谷歌一樣,它只是提供一個介面需要被實作才能使用, ElasticSearch直接拿來用,
- 封裝了更多高級的功能,例如聚合分析的功能,基于地理位置的搜索
- ES自動可以將海量資料分散到多臺服務器上去存盤和檢索
綜上所述:搜索引擎選擇用 ElasticSearch
五、SpringBoot整合ElasticSearch
SpringBoot 整合 Elasticsearch 常用的方式有以下三種:
- Java API
這種方式基于TCP和ES通信,官方已經明確表示在ES 7.0版本中將棄用TransportClient客戶端,且在8.0版本中完全移除它,所以不提倡,
- REST Client
上面的方式1是基于TCP和ES通信的(而且 TransPort 將來會被拋棄……),官方也給出了基于HTTP的客戶端REST Client(推薦使用),官方給出來的REST Client有Java Low Level REST Client和Java Hight Level REST Client兩個,前者兼容所有版本的ES,后者是基于前者開發出來的,只暴露了部分API,待完善
- Spring-Data-Elasticsearch(推薦)
除了上述方式,Spring 也提供了本身基于 SpringData 實作的一套方案Spring-Data-Elasticsearch,為什們推薦這種呢,因為這種方式 Spring 為我們封裝了常見的es操作,和使用 Jpa 操作資料庫一樣方便,
在ES中一個 Index 可以理解為一個庫,Type 就是一張表,一個Index可以對應多個Type,或者一個Index只能對應一個Type(從6.0.0 起就是一對一),
六、Elasticsearch的安裝
從網上把 Elasticsearch 的安裝包下載下來之后,直接解壓,進入bin目錄下,雙擊執行Elasticsearch.bat,看到Started 說明啟動成功,打開瀏覽器測驗一下,輸入http://localhost:9200/,則成功,
Elasticsearch-Head插件
Elasticsearch-Head將是一款專門針對于 Elasticsearch 的客戶端工具,類似 Mysql 的 Sqlyog 或者 Navicat資料庫軟體可視化界面,
運行head插件:grunt server
訪問:localhost:9100
七、ElasticSearch實作聯表查詢
SpringBoot整合ElasticSearch+父子查詢
相關鏈接:https://blog.csdn.net/a_lllk/article/details/83409880
父子關系的type和映射關系要提前建立好,
這里講一下三種實作方式:
-
嵌套查詢 Nested Query:檔案包含 nested 型別的欄位,這些欄位用來索引陣列物件,其中每個物件作為獨立的檔案可以被檢索(使用 nested 查詢),
-
父子查詢Has_Child 和 Has_Parent :父子關系可以在一個單獨的索引中的兩個檔案型別間存在,has_child 查詢回傳了父檔案,其子檔案匹配了特定的查詢,而 has_parent 查詢回傳子檔案,其父檔案匹配了特定的查詢,(類似于主外鍵)要點:父子關系元資料映射,用于確保查詢時候的高性能,但是有一個限制,就是父子資料必須存在于一個shard中
-
應用層聯接,
八、Nested 和 Parent-Child的區別以及使用場景
嵌套查詢和父子查詢的主要區別:
由于存盤結構的不同,Nested 和 Parent-Child 的方式有不同的應用場景,Nested 所有物體存盤在同一個檔案,而 Parent-Child 模式得子 Type 和 父Type 存盤在不同的檔案里,所以查詢效率上 Nested 要高于 Parent-Child,但是更新的時候 Nested 模式下,ElasticSearch 會洗掉整個檔案再創建,而 Parent-Child 只會洗掉你更新的檔案在重新創建,不影響其他檔案,所以更新效率上 Parent-Child 要高于 Nested,
嵌套查詢和父子查詢的具體的使用場景:
Nested:在少量子檔案,并且不會經常改變的情況下使用,比如:訂單里面的產品,一個訂單不可能會有成千上萬個不同的產品,一般不會很多,并且一旦下單后,下單的產品是不可更新的,
Parent-Child:在大量檔案,并且會經常發生改變的情況下使用,比如:用戶的瀏覽記錄,瀏覽記錄會很大,并且會頻繁更新
總結
以上就是我關于搜索引擎的相關總結,當然這篇文章只能算是對搜索引擎的一個入門,后面我還會出相關的文章的哦,
公眾號:良許Linux
有識訓?希望老鐵們來個三連擊,給更多的人看到這篇文章
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/49327.html
標籤:Linux
上一篇:Linux統計檔案夾下的檔案個數
下一篇:ubuntu顯示黑屏
