主頁 > 企業開發 > ELK集中化日志解決方案——看這一篇全搞定

ELK集中化日志解決方案——看這一篇全搞定

2022-01-01 06:10:46 企業開發

一、前言

在軟體發開技術管理里有兩個永恒經典的問題,適合我們初到一家軟體企業或一家公司的科技團隊,來判斷自己該從哪里入手幫助整個團隊提升科技水平和產能,問題一是“在我們團隊里,只涉及一行代碼的變更需要多久才能上線?”,問題二是“在我們團隊里,定位一個線上問題需要多久?流程是什么?”,問題一關注的是“交付”,問題二關注的是“保障”,今天寫這邊文章跟大家聊聊有關問題二的故事,

不怕大家笑話,我最初的公司每個服務生產上就兩臺Tomcat,定位生產問題,就是連上一臺機器,然后用使用 cd / tail / grep / sed / awk 等 Linux 腳本去日志里查找故障原因,如果發現不在這臺機器上,就去另一臺機器上查日志,(如果你現在的公司還是這樣干,記住出去面試的時候也不要說是這樣干,不然很容易由于你之前的公司的整體技術水平太low而把你pass掉)

但在應用服務器規模較大的場景中,此方法效率低下,面臨問題包括日志量太大如何歸檔、文本搜索太慢怎么辦、如何多維度查詢,需要集中化的日志管理,所有服務器上的日志收集匯總,常見解決思路是建立集中式日志收集系統,將所有節點上的日志統一收集,管理,訪問,一般大型系統是一個分布式部署的架構,不同的服務模塊部署在不同的服務器上,問題出現時,大部分情況需要根據問題暴露的關鍵資訊,定位到具體的服務器和服務模塊,構建一套集中式日志系統,可以提高定位問題的效率,

以搜索引擎聞名世界的開源軟體提供商-Elastic為我們大家提供了一套完整的日志收集以及展示的解決方案——ELK,是三個產品的首字母縮寫,分別是ElasticSearch、Logstash 和 Kibana,

 

二、ELK簡介

Logstash主要是用來負責搜集、分析、過濾日志的工具,支持大量的資料獲取方式,一般作業方式為c/s架構,client端安裝在需要收集日志的主機上,server端負責將收到的各節點日志進行過濾、修改等操作在一并發往elasticsearch上去,

ElasticSearch用來負責存盤最終資料、建立索引和對外提供搜索日志的功能,它是個開源分布式搜索引擎,提供搜集、分析、存盤資料三大功能,它的特點有:分布式,零配置,自動發現,索引自動分片,索引副本機制,restful風格介面,多資料源,自動搜索負載等,

Kibana是一個優秀的前端日志展示框架,它可以非常詳細的將日志轉化為各種圖表,為用戶提供強大的資料可視化支持,

 

三、不同級別的ELK架構

1、入門級

 

這是最簡單的ELK架構,這種架構下我們把 Logstash實體與Elasticsearch實體直接相連,主要就是圖一個簡單,我們的程式App將日志寫入Log,然后Logstash將Log讀出,進行過濾,寫入Elasticsearch,最后瀏覽器訪問Kibana,提供一個可視化輸出,

入門級版本的缺點主要是兩個

  • 在大并發情況下,日志傳輸峰值比較大,如果直接寫入ES,ES的HTTP API處理能力有限,在日志寫入頻繁的情況下可能會超時、丟失,所以需要一個緩沖中間件,
  • 注意了,Logstash將Log讀出、過濾、輸出都是在應用服務器上進行的,這勢必會造成服務器上占用系統資源較高,性能不佳,需要進行拆分,

于是我們作為公司最牛的架構師,提出了一個升級版的ELK架構,解決如上兩個問題,

2、升級版

在這版中,加入一個緩沖中間件(訊息佇列),另外對Logstash拆分為Shipper和Indexer,先說一下,LogStash自身沒有什么角色,只是根據不同的功能、不同的配置給出不同的稱呼而已,Shipper來進行日志收集,Indexer從緩沖中間件接收日志,過濾輸出到Elasticsearch,具體如下圖所示

 

大家會發現,早期的博客,都是推薦使用redis,因為這是ELK Stack 官網建議使用 Redis 來做訊息佇列,但是很多大佬已經通過實踐證明使用Kafka更加優秀,原因如下:

  • Redis無法保證訊息的可靠性,這點Kafka可以做到
  • Kafka的吞吐量和集群模式都比Redis更優秀
  • Redis受限于機器記憶體,當記憶體達到Max,資料就會拋棄,當然,你可以說我們可以加大記憶體啊?但是,在Redis中記憶體越大,觸發持久化的操作阻塞主執行緒的時間越長,相比之下,Kafka的資料是堆積在硬碟中,不存在這個問題,

但這個升級版仍然存在缺陷:

  • Logstash Shipper是jvm跑的,非常占用JAVA記憶體! ,據《ELK系統使用filebeat替代logstash進行日志采集》這篇文章說明,8執行緒8GB記憶體下,Logstash常駐記憶體660M(JAVA),因此,這么一個巨無霸部署在應用服務器端就不大合適了,我們需要一個更加輕量級的日志采集組件,
  • 上述架構如果部署成集群,所有業務放在一個大集群中相互影響,一個業務系統出問題了,就會拖垮整個日志系統,因此,需要進行業務隔離!

于是我們給我們在Elastic公司的朋友打了個電話,說明了他們這個集中型日志解決方案的弊端——太費CPU也就太費電,Elastic公司的朋友電話中告訴我們最近新研發了一個FileBeat,它是一個輕量級的日志收集處理工具(Agent),Filebeat占用資源少,適合于在各個服務器上搜集日志后傳輸給Logstash,官方也推薦此工具,

3、大師版

 

從上圖可以看到,Elasticsearch根據業務部了3個集群,他們之間相互獨立,避免出現,一個業務拖垮了Elasticsearch集群,整個日志系統就一起宕機的情況,而且,從運維角度來說,這種架構運維起來也更加方便,

這套架構的缺點在于對日志沒有進行冷熱分離,因為我們一般來說,一個月之內不排查的錯誤日志,那都是不重要的錯誤,以30天作為界限,區分冷熱資料,可以大大的優化查詢速度,

4、專家版

這一版,我們對資料進行冷熱分離,每個業務準備兩個Elasticsearch集群,可以理解為冷熱集群,7天以內的資料,存入熱集群,以SSD存盤索引,超過7天,就進入冷集群,以SATA存盤索引,這么一改動,性能又得到提升

 

四、ELK的作業原理

1、Filebeat作業原理

Filebeat由兩個主要組件組成:prospectors 和 harvesters,這兩個組件協同作業將檔案變動發送到指定的輸出中,

 

Harvester(收割機):負責讀取單個檔案內容,每個檔案會啟動一個Harvester,每個Harvester會逐行讀取各個檔案,并將檔案內容發送到制定輸出中,Harvester負責打開和關閉檔案,意味在Harvester運行的時候,檔案描述符處于打開狀態,如果檔案在收集中被重命名或者被洗掉,Filebeat會繼續讀取此檔案,所以在Harvester關閉之前,磁盤不會被釋放,默認情況filebeat會保持檔案打開的狀態,直到達到close_inactive(如果此選項開啟,filebeat會在指定時間內將不再更新的檔案句柄關閉,時間從harvester讀取最后一行的時間開始計時,若檔案句柄被關閉后,檔案發生變化,則會啟動一個新的harvester,關閉檔案句柄的時間不取決于檔案的修改時間,若此引數配置不當,則可能發生日志不實時的情況,由scan_frequency引數決定,默認10s,Harvester使用內部時間戳來記錄檔案最后被收集的時間,例如:設定5m,則在Harvester讀取檔案的最后一行之后,開始倒計時5分鐘,若5分鐘內檔案無變化,則關閉檔案句柄,默認5m),

 

Prospector(勘測者):負責管理Harvester并找到所有讀取源,

Prospector會找到/apps/logs/*目錄下的所有info.log檔案,并為每個檔案啟動一個Harvester,Prospector會檢查每個檔案,看Harvester是否已經啟動,是否需要啟動,或者檔案是否可以忽略,若Harvester關閉,只有在檔案大小發生變化的時候Prospector才會執行檢查,只能檢測本地的檔案,

 

Filebeat如何記錄檔案狀態:

將檔案狀態記錄在檔案中(默認在/var/lib/filebeat/registry),此狀態可以記住Harvester收集檔案的偏移量,若連接不上輸出設備,如ES等,filebeat會記錄發送前的最后一行,并再可以連接的時候繼續發送,Filebeat在運行的時候,Prospector狀態會被記錄在記憶體中,Filebeat重啟的時候,利用registry記錄的狀態來進行重建,用來還原到重啟之前的狀態,每個Prospector會為每個找到的檔案記錄一個狀態,對于每個檔案,Filebeat存盤唯一識別符號以檢測檔案是否先前被收集,

 

Filebeat如何保證事件至少被輸出一次:

Filebeat之所以能保證事件至少被傳遞到配置的輸出一次,沒有資料丟失,是因為filebeat將每個事件的傳遞狀態保存在檔案中,在未得到輸出方確認時,filebeat會嘗試一直發送,直到得到回應,若filebeat在傳輸程序中被關閉,則不會再關閉之前確認所有時事件,任何在filebeat關閉之前為確認的時間,都會在filebeat重啟之后重新發送,這可確保至少發送一次,但有可能會重復,可通過設定shutdown_timeout 引數來設定關閉之前的等待事件回應的時間(默認禁用),

2、Logstash作業原理

Logstash事件處理有三個階段:inputs → filters → outputs,是一個接收,處理,轉發日志的工具,支持系統日志,webserver日志,錯誤日志,應用日志,總之包括所有可以拋出來的日志型別,

 

Input:輸入資料到logstash,一些常用的輸入為:

file:從檔案系統的檔案中讀取,類似于tail -f命令

syslog:在514埠上監聽系統日志訊息,并根據RFC3164標準進行決議

redis:從redis service中讀取

beats:從filebeat中讀取

Filters:資料中間處理,對資料進行操作,

 

一些常用的過濾器為:

grok:決議任意文本資料,Grok 是 Logstash 最重要的插件,它的主要作用就是將文本格式的字串,轉換成為具體的結構化的資料,配合正則運算式使用,內置120多個決議語法,(官方提供的grok運算式:https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns

grok在線除錯:https://grokdebug.herokuapp.com/)

mutate:對欄位進行轉換,例如對欄位進行洗掉、替換、修改、重命名等,

drop:丟棄一部分events不進行處理,

clone:拷貝 event,這個程序中也可以添加或移除欄位,

geoip:添加地理資訊(為前臺kibana圖形化展示使用)

 

Outputsoutputs是logstash處理管道的最末端組件,一個event可以在處理程序中經過多重輸出,但是一旦所有的outputs都執行結束,這個event也就完成生命周期,一些常見的outputs為:

elasticsearch:可以高效的保存資料,并且能夠方便和簡單的進行查詢,

file:將event資料保存到檔案中,

graphite:將event資料發送到圖形化組件中,一個很流行的開源存盤圖形化展示的組件,

3、Elasticsearch 基本原理

舉個例子,現在我們要保存唐宋詩詞,關系型資料庫中我們們會怎么設計?詩詞表我們可能的設計如下:

朝代

作者

標題

詩詞全文

李白

靜夜思

床前明月光,疑是地上霜,舉頭望明月,低頭思故鄉,

李清照

如夢令

常記溪亭日暮,沉醉不知歸路,興盡晚回舟,誤入藕花深處,爭渡,爭渡,驚起一灘鷗鷺,

要根據朝代或者作者尋找詩,都很簡單,比如“select 詩詞全文 from 詩詞表where作者=‘李白’”,如果資料很多,查詢速度很慢,怎么辦?我們可以在對應的查詢欄位上建立索引加速查詢,

但是如果我們現在有個需求:要求找到包含“望”字的詩詞怎么辦?用

“select 詩詞全文 from 詩詞表 where 詩詞全文 like‘%望%’”,這個意味著

要掃描庫中的詩詞全文欄位,逐條比對,找出所有包含關鍵詞“望”字的記錄,,

基本上,資料庫中一般的 SQL 優化手段都是用不上的,數量少,大概性能還能接受,如果資料量稍微大點,就完全無法接受了,更何況在互聯網這種海量資料的情況下呢?

怎么解決這個問題呢,用倒排索引Inverted index

比如現在有:

  蜀道難(唐)李白 蜀道之難難于上青天,側身西望長咨嗟,

  靜夜思(唐)李白 舉頭望明月,低頭思故鄉,

  春臺望(唐)李隆基 暇景屬三春,高臺聊四望,

  鶴沖天(宋)柳永 黃金榜上,偶失龍頭望,明代暫遺賢,如何向?未遂風云便,爭不恣狂蕩,何須論得喪?才子詞人,自是白衣卿相,煙花巷陌,依約丹青屏障,

  幸有意中人,堪尋訪,且恁偎紅翠,風流事,平生暢,青春都一餉,忍把浮名,換了淺斟低唱!

這些詩詞都有望字,于是我們可以這么保存

序號

關鍵字

蜀道難

靜夜思

春臺望

鶴沖天

1

 

 

 

 

 

 

其實,上述詩詞的中每個字都可以作為關鍵字,然后建立關鍵字和檔案之間的對應關系,也就是標識關鍵字被哪些檔案包含,

所以,倒排索引就是,將檔案中包含的關鍵字全部提取處理,然后再將關鍵字和檔案之間的對應關系保存起來,最后再對關鍵字本身做索引排序,用戶在檢索某一個關鍵字是,先對關鍵字的索引進行查找,再通過關鍵字與檔案的對應關系找到所在檔案,

Elasticsearch 索引是映射型別的容器,一個 Elasticsearch 索引非常像關系型世界的資料庫,是獨立的大量檔案集合,

  當然在底層,肯定用到了倒排索引,最基本的結構就是“keyword”和“PostingList”,Posting list就是一個 int的陣列,存盤了所有符合某個 term的檔案 id,

  另外,這個倒排索引相位元定詞項出現過的檔案串列,會包含更多其它資訊,

  它會保存每一個詞項出現過的檔案總數,在對應的檔案中一個具體詞項出現的總次數,詞項在檔案中的順序,每個檔案的長度,所有檔案的平均長度等等相關資訊,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/399515.html

標籤:其他

上一篇:ELK集中化日志解決方案——看這一篇全搞定

下一篇:JSON.parse 和 JSON.stringify 詳解

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • IEEE1588PTP在數字化變電站時鐘同步方面的應用

    IEEE1588ptp在數字化變電站時鐘同步方面的應用 京準電子科技官微——ahjzsz 一、電力系統時間同步基本概況 隨著對IEC 61850標準研究的不斷深入,國內外學者提出基于IEC61850通信標準體系建設數字化變電站的發展思路。數字化變電站與常規變電站的顯著區別在于程序層傳統的電流/電壓互 ......

    uj5u.com 2020-09-10 03:51:52 more
  • HTTP request smuggling CL.TE

    CL.TE 簡介 前端通過Content-Length處理請求,通過反向代理或者負載均衡將請求轉發到后端,后端Transfer-Encoding優先級較高,以TE處理請求造成安全問題。 檢測 發送如下資料包 POST / HTTP/1.1 Host: ac391f7e1e9af821806e890 ......

    uj5u.com 2020-09-10 03:52:11 more
  • 網路滲透資料大全單——漏洞庫篇

    網路滲透資料大全單——漏洞庫篇漏洞庫 NVD ——美國國家漏洞庫 →http://nvd.nist.gov/。 CERT ——美國國家應急回應中心 →https://www.us-cert.gov/ OSVDB ——開源漏洞庫 →http://osvdb.org Bugtraq ——賽門鐵克 →ht ......

    uj5u.com 2020-09-10 03:52:15 more
  • 京準講述NTP時鐘服務器應用及原理

    京準講述NTP時鐘服務器應用及原理京準講述NTP時鐘服務器應用及原理 安徽京準電子科技官微——ahjzsz 北斗授時原理 授時是指接識訓通過某種方式獲得本地時間與北斗標準時間的鐘差,然后調整本地時鐘使時差控制在一定的精度范圍內。 衛星導航系統通常由三部分組成:導航授時衛星、地面檢測校正維護系統和用戶 ......

    uj5u.com 2020-09-10 03:52:25 more
  • 利用北斗衛星系統設計NTP網路時間服務器

    利用北斗衛星系統設計NTP網路時間服務器 利用北斗衛星系統設計NTP網路時間服務器 安徽京準電子科技官微——ahjzsz 概述 NTP網路時間服務器是一款支持NTP和SNTP網路時間同步協議,高精度、大容量、高品質的高科技時鐘產品。 NTP網路時間服務器設備采用冗余架構設計,高精度時鐘直接來源于北斗 ......

    uj5u.com 2020-09-10 03:52:35 more
  • 詳細解讀電力系統各種對時方式

    詳細解讀電力系統各種對時方式 詳細解讀電力系統各種對時方式 安徽京準電子科技官微——ahjzsz,更多資料請添加VX 衛星同步時鐘是我京準公司開發研制的應用衛星授時時技術的標準時間顯示和發送的裝置,該裝置以M國全球定位系統(GLOBAL POSITIONING SYSTEM,縮寫為GPS)或者我國北 ......

    uj5u.com 2020-09-10 03:52:45 more
  • 如何保證外包團隊接入企業內網安全

    不管企業規模的大小,只要企業想省錢,那么企業的某些服務就一定會采用外包的形式,然而看似美好又經濟的策略,其實也有不好的一面。下面我通過安全的角度來聊聊使用外包團的安全隱患問題。 先看看什么服務會使用外包的,最常見的就是話務/客服這種需要大量重復性、無技術性的服務,或者是一些銷售外包、特殊的職能外包等 ......

    uj5u.com 2020-09-10 03:52:57 more
  • PHP漏洞之【整型數字型SQL注入】

    0x01 什么是SQL注入 SQL是一種注入攻擊,通過前端帶入后端資料庫進行惡意的SQL陳述句查詢。 0x02 SQL整型注入原理 SQL注入一般發生在動態網站URL地址里,當然也會發生在其它地發,如登錄框等等也會存在注入,只要是和資料庫打交道的地方都有可能存在。 如這里http://192.168. ......

    uj5u.com 2020-09-10 03:55:40 more
  • [GXYCTF2019]禁止套娃

    git泄露獲取原始碼 使用GET傳參,引數為exp 經過三層過濾執行 第一層過濾偽協議,第二層過濾帶引數的函式,第三層過濾一些函式 preg_replace('/[a-z,_]+\((?R)?\)/', NULL, $_GET['exp'] (?R)參考當前正則運算式,相當于匹配函式里的引數 因此傳遞 ......

    uj5u.com 2020-09-10 03:56:07 more
  • 等保2.0實施流程

    流程 結論 ......

    uj5u.com 2020-09-10 03:56:16 more
最新发布
  • 使用Django Rest framework搭建Blog

    在前面的Blog例子中我們使用的是GraphQL, 雖然GraphQL的使用處于上升趨勢,但是Rest API還是使用的更廣泛一些. 所以還是決定回到傳統的rest api framework上來, Django rest framework的官網上給了一個很好用的QuickStart, 我參考Qu ......

    uj5u.com 2023-04-20 08:17:54 more
  • 記錄-new Date() 我忍你很久了!

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 大家平時在開發的時候有沒被new Date()折磨過?就是它的諸多怪異的設定讓你每每用的時候,都可能不小心踩坑。造成程式意外出錯,卻一下子找不到問題出處,那叫一個煩透了…… 下面,我就列舉它的“四宗罪”及應用思考 可惡的四宗罪 1. Sa ......

    uj5u.com 2023-04-20 08:17:47 more
  • 使用Vue.js實作文字跑馬燈效果

    實作文字跑馬燈效果,首先用到 substring()截取 和 setInterval計時器 clearInterval()清除計時器 效果如下: 實作代碼如下: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta ......

    uj5u.com 2023-04-20 08:12:31 more
  • JavaScript 運算子

    JavaScript 運算子/運算子 在 JavaScript 中,有一些運算子可以使代碼更簡潔、易讀和高效。以下是一些常見的運算子: 1、可選鏈運算子(optional chaining operator) ?.是可選鏈運算子(optional chaining operator)。?. 可選鏈操 ......

    uj5u.com 2023-04-20 08:02:25 more
  • CSS—相對單位rem

    一、概述 rem是一個相對長度單位,它的單位長度取決于根標簽html的字體尺寸。rem即root em的意思,中文翻譯為根em。瀏覽器的文本尺寸一般默認為16px,即默認情況下: 1rem = 16px rem布局原理:根據CSS媒體查詢功能,更改根標簽的字體尺寸,實作rem單位隨螢屏尺寸的變化,如 ......

    uj5u.com 2023-04-20 08:02:21 more
  • 我的第一個NPM包:panghu-planebattle-esm(胖虎飛機大戰)使用說明

    好家伙,我的包終于開發完啦 歡迎使用胖虎的飛機大戰包!! 為你的主頁添加色彩 這是一個有趣的網頁小游戲包,使用canvas和js開發 使用ES6模塊化開發 效果圖如下: (覺得圖片太sb的可以自己改) 代碼已開源!! Git: https://gitee.com/tang-and-han-dynas ......

    uj5u.com 2023-04-20 08:01:50 more
  • 如何在 vue3 中使用 jsx/tsx?

    我們都知道,通常情況下我們使用 vue 大多都是用的 SFC(Signle File Component)單檔案組件模式,即一個組件就是一個檔案,但其實 Vue 也是支持使用 JSX 來撰寫組件的。這里不討論 SFC 和 JSX 的好壞,這個仁者見仁智者見智。本篇文章旨在帶領大家快速了解和使用 Vu ......

    uj5u.com 2023-04-20 08:01:37 more
  • 【Vue2.x原始碼系列06】計算屬性computed原理

    本章目標:計算屬性是如何實作的?計算屬性快取原理以及洋蔥模型的應用?在初始化Vue實體時,我們會給每個計算屬性都創建一個對應watcher,我們稱之為計算屬性watcher ......

    uj5u.com 2023-04-20 08:01:31 more
  • http1.1與http2.0

    一、http是什么 通俗來講,http就是計算機通過網路進行通信的規則,是一個基于請求與回應,無狀態的,應用層協議。常用于TCP/IP協議傳輸資料。目前任何終端之間任何一種通信方式都必須按Http協議進行,否則無法連接。tcp(三次握手,四次揮手)。 請求與回應:客戶端請求、服務端回應資料。 無狀態 ......

    uj5u.com 2023-04-20 08:01:10 more
  • http1.1與http2.0

    一、http是什么 通俗來講,http就是計算機通過網路進行通信的規則,是一個基于請求與回應,無狀態的,應用層協議。常用于TCP/IP協議傳輸資料。目前任何終端之間任何一種通信方式都必須按Http協議進行,否則無法連接。tcp(三次握手,四次揮手)。 請求與回應:客戶端請求、服務端回應資料。 無狀態 ......

    uj5u.com 2023-04-20 08:00:32 more