文章目錄

一、存盤系統分類
- 1.1 非結構化存盤
- - 1.1.1 常見使用設備
- 1.2 半結構化存盤
- 1.3 結構化存盤
- 二、 ELK日志分析系統組成
- - 2.3.1 ElasticSearch
  - 2.3.2 Logstash和Filebeat
  - 2.3.3 Kibana
三、ELK日志分析系統簡介
- 3.1Elasticsearch定義
- 3.2 Elasticsearch的用途
- 3.3ElasticSearch的原理
- - 3.3.1 搜索引擎作業的程序
  - 3.3.2 ElasticSearch 來源
  - 3.3.3 ElasticSearch 基本概念
  - 3.3.4 存盤ElasticSearch資料
- 3.4 ElasticSearch 分布式原理
- 3.4 ElasticSearch資料同步
- 3.5 Logstash
- - 3.5.1 Logstash的簡介
  - 3.5.1 Logstash的架構
  - - 3.5.1.1 Input輸入
    - 3.5.1.2 filter過濾器
    - 3.5.1.3 Output 輸出
    - 3.5.1.3 Codecs 編解碼器

一、存盤系統分類

1.1 非結構化存盤

定義：指不定長或無固定格式的資料，如郵件，word檔案等

1.1.1 常見使用設備

①Block：需要磁區，格式化，不支持多個節點掛載使用，rbd（Ceph）
②Filesystem：NFS，HDFS（hadoop Filesystem），FastDFS（輕量級，適用于存盤圖片），輸出的API已經是檔案了，支持多個節點掛載使用

1.2 半結構化存盤

定義：非關系模型的、有基本固定結構模式的資料，例如日志檔案、XML檔案、JSON檔案、Email等
流派：

K/V存盤  ：redis，TiKV（原生K/V存盤系統）

Document存盤：MongoDB，CahceDB，ElastcSearch：每個資料項自帶的欄位和值，可以后期添加欄位和值，還可以嵌套值，---> 檔案（Document）

Colume Family存盤：HBase （Hadoop Database）

GraphDB：圖式存盤：Neo4j

1.3 結構化存盤

定義：指具有固定格式或有限長度的資料，如資料庫，元資料等

特點：

① TiDB： 是一個分布式 NewSQL 資料庫，它支持水平彈性擴展、ACID 事務、標準 SQL、MySQL 語法和 MySQL 協議，具有資料強一致的高可用特性，是一個不僅適合 OLTP 場景還適OLAP 場景的混合資料庫

②shema要求嚴格

二、 ELK日志分析系統組成

2.3.1 ElasticSearch

ElasticSearch定義： Elasticsearch 是一個分布式、高擴展、高實時的搜索與資料分析引擎，

2.3.2 Logstash和Filebeat

Logstash定義： 集中、轉換和存盤資料

Filebeat定義： 輕量型日志采集器；從安全設備、云、容器、主機還是 OT 進行資料收集，Filebeat 都會提供一種輕量型方法，用于轉發和匯總日志與檔案

Filebeat是Beats中的一個組件，以下是Beats的介紹以及組件組件構成：

介紹： beats組件是一系列用于采集資料的輕量級代理程式，用于從服務端收集日志、網路、監控資料，并最侄訓總到elasticsearch，beats組件收集的資料即可以直接上報給elasticsearch，也可以通過logstash中轉處理后上報給elasticsearc，

beats根據功能劃分有多種組件：

PacketBeat：用于分析和收集服務器的網路包資料；

Heartbeat：主要是檢測服務或主機是否正常運行或存活，Heartbeat 能夠通過 ICMP、TCP 和 HTTP 進行 ping 檢測；

FileBeat：主要用于轉發和集中日志資料，Filebeat作為代理安裝在服務器上，監視您指定的日志檔案或位置，收集日志事件，并將它們轉發到ElasticSearch或Logstash進行索引；

MetricBeat：定期收集作業系統、軟體或服務的指標資料，支持收集的module非常多，常用的有docker、kafka、mysql、nginx、redis、zookeeper等等

Packetbeat:是一款輕量型網路資料包分析器，Packetbeat的作業原理是捕獲應用程式服務器之間的網路流量，解碼應用程式層協議（HTTP，MySQL，Redis等）

Auditbeat 允許您在 Linux、macOS 和 Windows 平臺上仔細監控任何您感興趣的檔案目錄，檔案改變會被實時發送到 Elasticsearch，每條訊息都包含元資料和檔案內容的加密哈希資訊，以便后續進一步分析;

Topbeat:搜集系統，行程和檔案系統級別的CPU和記憶體使用情況,已經被Metricbeat取代;

WinlogBeat：用于收集windows系統的event log；

2.3.3 Kibana

定義： Kibana 是為 Elasticsearch設計的開源分析和可視化平臺

三、ELK日志分析系統簡介

3.1Elasticsearch定義

Elasticsearch是一個分布式的開源搜索和分析引擎，適用于所有型別的資料，包括文本、數字、地理空間、結構化和非結構化資料，Elasticsearch在Apache Lucene的基礎上開發而成，由Elasticsearch N.V.(即現在的Elastic)于2010年首次發布，Elasticsearch以其簡單的REST風格API、分布式特性、速度和可擴展性而聞名，是Elastic Stack的核心組件; Elastic Stack 是適用于資料采集、充實、存盤、分析和可視化的一組開源工具，人們通常將Elastic Stack稱為ELK Stack(代指Elasticsearch、Logstash和Kibana)，目前Elastic Stack 包括一系列豐富的輕量型資料采集代理，這些代理統稱為Beats，可用來向Elasticsearch 發送資料，

3.2 Elasticsearch的用途

Elasticsearch在速度和可擴展性方面都表現出色，而且還能夠索引多種型別的內容，這意味著其可用于多種用例:

應用程式搜索
網站搜索
企業搜索
日志處理和分析
基礎設施指標和容器監測
應用程式性能監測
地理空間資料分析和可視化
安全分析
業務分析

3.3ElasticSearch的原理

3.3.1 搜索引擎作業的程序

爬取內容、進行分詞、建立反向索引（倒排索引）

爬取內容：網頁爬取資料，所謂的爬蟲；

進行分詞：對爬取到資料進行切片；
🙄注意：資料中沒有意義的字，例如“的、而、和…”，這些詞本身是沒有意義的，認為是停頓詞，所以這些詞沒必要建立索引的，

倒排索引：根據分詞搜索爬取的完整內容

在這里插入圖片描述

Map：映射

input document：讀入檔案

Noemalization：全部統一化（同義詞替換、統一大小寫…）

Reduce：折疊

Key-alue pairs：鍵值對：每個詞出現檔案的編號

final reverse index：倒排索引，資料縮減

3.3.2 ElasticSearch 來源

ElasticSearch的之前是一個叫做Lucene的庫，必要懂一些搜索引擎原理的人才會使用，所有有人基于Lucene進行封裝，就成了今天我們看到的ElasticSearch，
ElasticSearch對搜索引擎的操作都封裝成了restful的api，通過http的請求就能進行搜索操作，

#獲取指定主機上的test索引中_doc型別中的1檔案
curl -XGET '127.0.0.1:9200/test/_doc/1?pretty=true'

3.3.3 ElasticSearch 基本概念

索引、型別、檔案
為了方便理解與MySQL資料庫中的庫、表、行對應i起來
在這里插入圖片描述

3.3.4 存盤ElasticSearch資料

比如一首詩，有詩題、作者、朝代、字數、詩內容等欄位，那么首先，我們可以建立一個名叫 Poems 的索引，然后創建一個名叫 Poem 的型別，型別是通過 Mapping 來定義每個欄位的型別，

比如詩題、作者、朝代都是 Keyword 型別，詩內容是 Text 型別，而字數是 Integer 型別，最后就是把資料組織成 Json 格式存放進去了，

索引
poems

型別
"poem": {
    "properties": {
        "title": {
            "type":"keyword",
},
        "author":{
   			 "type": "keyword",
},
		"dynasty": {
		    "type": "keyword"
},
		"words": {
  		   "type": "integer"
},
		"content": {
 		   "type": "text"
   }
  }
}

檔案
{
	"title":"靜夜思",
	"author":"李白",
	"dynasty":"唐",
	"words":"20",
    "content":"床前明月光，疑是地上霜，舉頭望明月，低頭思故鄉，"
}

😶注意：keyword與text的區別


keyword 直接直接建立反向索引
test 先分詞 后建立反向索引

3.4 ElasticSearch 分布式原理

為了確保分布式環境的高可用，ElasticSearch也會對資料進行切分，同時會保存多個副本，

在這里插入圖片描述

3.4 ElasticSearch資料同步

在 Elasticsearch 中，節點是對等的，節點間會通過自己的一些規則選取集群的 Master，Master 會負責集群狀態資訊的改變，并同步給其他節點
在這里插入圖片描述
🙄注意：只有建立索引和型別需要經過 Master，資料的寫入有一個簡單的 Routing 規則，可以 Route 到集群中的任意節點，所以資料寫入壓力是分散在整個集群的，

ElasticSearch 總結：

ElasticSearch 在Lucene的基礎上進行封裝，實作了分布式搜索引擎；
ElasticSearch中資料存在索引、型別和檔案的概念，相當于MySQL中的資料庫、表、行；
ElasticSearch 本身就是集群高可用應用，所以也存在master-slave架構，實作資料的分片和備份；
ElasticSearch 的典型應用就是ELK的日志分析系統，

3.5 Logstash

3.5.1 Logstash的簡介

logstash是一個資料分析軟體，主要目的是分析log日志，整一套軟體可以當作一個MVC模型，logstash是controller層，Elasticsearch是一個model層，kibana是view層，首先將資料傳給logstash，它將資料進行過濾和格式化（轉成JSON格式），然后傳給Elasticsearch進行存盤、建搜索的索引，kibana提供前端的頁面再進行搜索和圖表可視化，它是呼叫Elasticsearch的介面回傳的資料進行可視化，

3.5.1 Logstash的架構

Logstash事件處理管道有三個階段：輸入（input）→過濾器（filter）→輸出（output），輸入生成事件，過濾器修改它們，然后輸出將它們發送到其他地方，輸入和輸出支持編解碼器，使你能夠在資料進入或離開管道時對其進行編碼或解碼，而無需使用單獨的過濾器，

在這里插入圖片描述

3.5.1.1 Input輸入

將資料收錄到Logstash中，一些比較常用的輸入是：

**- file：**從檔案系統上的檔案進行讀取，類似于UNIX命令tail -5f file.txt
- syslog: 在埠514上監聽syslog訊息并根據RFC3164格式進行決議
- redis: 從redis服務器讀取資料，同時使用Redis通道和Redis串列，Redis通常被用作集中式Logstash安裝中的“broker”，它將從遠程Logstash “shipper”中的Logstash事件排隊
- beats: 處理Beats發送的事件
- stdin： 模塊是用于標準輸入，就是從標準輸入讀取資料

范例:從標準輸入讀取資料

[10:15:42 root@localhost conf.d]#vim  ./test4.conf  
input {
    stdin {
        add_field => {"key" => "value"}
        codec => "plain"
        tags => ["add"]
        type => "std"                                              
    }
}
output {
    stdout {
        codec => rubydebug
    }
}

[10:16:28 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f ./test4.conf 
lulu  #手動輸入
{
          "host" => "localhost.localdomain",
    "@timestamp" => 2020-12-31T02:19:18.620Z,
          "type" => "std",
           "key" => "value",
          "tags" => [
        [0] "add"
    ],
       "message" => "lulu",
      "@version" => "1"
}

3.5.1.2 filter過濾器

過濾器是Logstash管道中的中間處理設備，如果事件過濾器的條件，你可以將過濾器與條件陳述句組合在一起，對其執行操作，一些常用的過濾器包括：

- grok： 決議和構造任意文本，Grok是目前Logstash中決議非結構化日志資料到結構化和可查詢資料的最佳方式，內置有120種模式
- mutate： 對事件欄位執行一般的轉換，你可以重命名、洗掉、替換和修改事件中的欄位
- drop： 完全洗掉事件，例如debug事件
- clone： 復制事件，可能添加或洗掉欄位
- geoip： 添加關于IP地址地理位置的資訊

范例：GeoIP插件

GeoIP 是最常見的免費 IP 地址歸類查詢庫，同時也有收費版可以采購，GeoIP 庫可以根據 IP 地址提供對應的地域資訊，包括國別，省市，經緯度等，對于可視化地圖和區域統計

[20:59:10 root@localhost ~]#cd /etc/logstash/conf.d/

[20:59:29 root@localhost conf.d]#cat test3.conf 
input {
    stdin {
        type => "std"
    }
}
filter {
    geoip {
        source => "message"
    }
}
output{stdout{codec=>rubydebug}}

[21:08:52 root@localhost ~]#/usr/share/logstash/bin/logstash -f  /etc/logstash/conf.d/test3.conf 
183.60.92.253 #手動輸入IP地址進行分析
{
         "geoip" => {
          "country_name" => "China",
              "location" => {
            "lon" => 113.25,
            "lat" => 23.1167
        },
         "country_code2" => "CN",
         "country_code3" => "CN",
              "latitude" => 23.1167,   #緯度
                    "ip" => "183.60.92.253",
        "continent_code" => "AS",
           "region_name" => "Guangdong",
           "region_code" => "GD",
             "longitude" => 113.25,   #經度
              "timezone" => "Asia/Shanghai"
    },
          "host" => "localhost.localdomain",
      "@version" => "1",
          "type" => "std",
       "message" => "183.60.92.253",
    "@timestamp" => 2020-12-30T13:06:41.614Z
}

范例：grok插件

#logstach中自帶grok插件
logstash擁有豐富的filter插件,它們擴展了進入過濾器的原始資料，進行復雜的邏輯處理，甚至可以無中生有的添加新的 logstash 事件到后續的流程中去！Grok 是 Logstash 最重要的插件之一，也是迄今為止使蹩腳的、無結構的日志結構化和可查詢的最好方式，Grok在決議 syslog logs、apache and other webserver logs、mysql logs等任意格式的檔案上表現完美，

[19:40:42 root@localhost ~]#cd /etc/logstash/conf.d/

#在test2.conf中插入grok插件
[19:41:25 root@localhost conf.d]#vim test2.conf 
input {
    stdin {}
}

filter {
    grok {
        match => {
            "message" => "%{COMBINEDAPACHELOG}  
        }
        remove_field => "message"  #移除message欄位資訊
    }
} 

output {
    stdout {
        codec => rubydebug
    }
}

[19:49:03 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f  ./test2.conf
10.0.0.18 - - [29/Dec/2020:17:47:56 +0800] "GET /test1.html HTTP/1.1" 200 11 "-" "curl/7.61.1" "-"  #手動輸入nginx訪問資訊，因為該檔案加入了grok插件，所以將每個欄位詳細分解
{
      "timestamp" => "29/Dec/2020:17:47:56 +0800",
          "agent" => "\"curl/7.61.1\"",
          "bytes" => "11",
           "auth" => "-",
       "clientip" => "10.0.0.18",
           "host" => "localhost.localdomain",
           "verb" => "GET",
     "@timestamp" => 2020-12-29T11:50:18.000Z,
    "httpversion" => "1.1",
       "@version" => "1",
          "ident" => "-",
       "response" => "200",
       "referrer" => "\"-\"",
        "request" => "/test1.html"
}

3.5.1.3 Output 輸出

輸出是Logstash管道的最后階段，事件可以通過多種方式輸出，一旦所有的輸出處理完成，事件就結束了，

- elasticsearch： 發送事件資料到Elasticsearch，如果你打算以一種高效、方便、易于查詢的格式保存資料，那么使用Elasticsearch是可行的，
- file： 將事件資料寫入磁盤上的檔案
- graphite： 將事件資料發送到graphite，這是一種流行的用于存盤和繪制指標的開源工具，
- statsd： 發送事件到statsd，“監聽統計資訊（如計數器和計時器）、通過UDP發送聚合并將聚合發送到一個或多個可插拔后端服務”的服務
- stdout： 標準輸出

范例：將日志統一收集到指定檔案種


[10:37:13 root@localhost ~]#cat /etc/logstash/conf.d/test6.conf 
input {
    stdin{
        type => "std"
    }
}

output {
    file {
        path => "/tmp/%{+yyyy}-%{+MM}-%{+dd}-%{host}.log"
        codec => line{format => "%{message}"}
    }
}

[10:40:20 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f ./test6.conf  
...
i love linux  #手動輸入
[INFO ] 2020-12-31 10:38:35.822 [[main]>worker0] file - Closing file /tmp/2020-12-31-localhost.localdomain.log     #手動輸入的內容收集到 /tmp/2020-12-31-localhost.localdomain.log 檔案中

#日志檔案內容驗證
[10:38:37 root@localhost ~]#cat /tmp/2020-12-31-localhost.localdomain.log
i love linux

3.5.1.3 Codecs 編解碼器

Codecs可以作為輸入或輸出的一部分進行操作，Codecs使用戶能夠輕松地將訊息的傳輸與序列化程序分開，形成input | decode | filter | encode | output 的資料流，流行的codecs包括json、msgpack和plain（text）

范例：

默認情況下，logstash只支持純文本形式的輸入，然后在過濾器filter種將資料加工成指定格式，現在可以在input指定資料型別，全部是因為有了codecs的設定，

[10:07:54 root@localhost ~]#cat  /etc/logstash/conf.d/test4.conf  
input {
    stdin {
        add_field => {"key" => "value" }
        codec => "json"
        type => "std"
    
    }

}
output {
    stdout {
        codec => rubydebug
    }
}

[09:54:45 root@localhost ~]#/usr/share/logstash/bin/logstash -f 
...
/etc/logstash/conf.d/test4.conf 
{"name":"lulu"}  #手動輸入json格式的鍵值對
{
          "name" => "lulu",
          "host" => "localhost.localdomain",
    "@timestamp" => 2020-12-31T02:06:20.998Z,
           "key" => "value",
      "@version" => "1",
          "type" => "std"
}

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/242859.html

標籤：其他

上一篇：看起來很唬人，然而卻簡單實用的CAP理論

下一篇：01 | 研發工程師想提升面試競爭力，該具備這三個技術認知

Elastic Stack:ELK