第一章、運維現狀
1.1 運維的職業和發展方向
運維工程師( peration Engineer ),是指從事運維作業的工程師,運維工程師的作業范圍非常廣泛,包括服務器購買 租用和上架等基本管理,調整網路設備的配置管理和部署,服務器作業系統安裝除錯,測驗環境和生產環境的初始化與維護,代碼部署和管理( Git SVN 等),設計和部署線上服務的監控與報警,服務安全性檢測(防止漏洞和攻擊〉,資料庫管理和除錯等,
在大型公司中,運維工程師根據作業內容被細分為網站運維、系統運維、網路運維、資料庫運維( DBA IT 運維、運維開發( DevOps )、運維安全等方向,
1.2 SRE工程師
運維工程在國內也被稱作 SRE(Site Reliability Engineering),直接翻譯為網站可用性工程師, SRE工程師需要具備演算法、資料結構、編程能力、網路編程、分布式系統、可擴展架構、故障排除等各方面技能,其核心作業包括容量規劃與實施、服務集群維護、系統容錯管理、負載均衡、監控系統以及值班等,最終為產品上線后服務的穩定性負責,但是不負責具體的機器運維,

第二章、智能運維

智能運維決不是 個跳躍發展的程序,而是 個長期演進的系統,其根基還是運維自動化、監控、資料收集、分析和處理等具體的工程,人們很容易忽略智能運維在工程上的投入,認為只要有演算法就可以了, 工程能力和演算法能力同樣,
2.1 海量資料的存盤、分析和處理
運維人員必須隨時 握服務器的運行狀況,除常規的服務器配置、資源占用情況等資訊外,業務在運行時會產生大 的日志、例外、告警、狀態報告 ,統稱為“事件”,
2.2 多維度、多資料源
很多時候,資料分析人員可能要使用各種維度、組合各種指標來生成報告、 Dashboard 、告警規則等,所以是否支持多維度的資料存盤和查詢分析,是衡量一個系統是否具有靈活性的重要指標,
2.3 資訊過載
DDoS (分布式拒絕服務)攻擊,指借助于客戶/服務器技術,將多臺計算機聯合起來作為攻擊平臺 ,對一個或多個目標發動攻擊,其特點是所有請求都是合法的,但請求量特別大,很快會消耗光計算資源和帶寬,

2.4 復雜業務模型下的政障定位


第三章、開源資料采集技術
對業務指標的監控本質上是對資料的監控,所以說智能運維是建立在資料基礎之上的,
3.1 資料采集工具對比
資料是監控報警的基石,我們在實作海量資料的分析監控前 ,

Logstash 雖然功能更加強大,但是占用系統資源較多,而 Filebeat 則更加輕量級,占用系統資源較少,
3 .2 輕量級采集工具Filebeat

3.2.1 Filebeat 作業原理


Prospector 負責管理 Harvester 并發現所有可讀的資料,如果輸入的檔案型別是log 那么Prospector 在磁盤上找出所有匹配指定全域路徑的所有檔案, 為每個檔案啟動一個 Harvester,
filebeat.prospectors :
- type : log
paths :
- "/ var/log/origin- *"
- "/ var/log/error.log"

2. Harvester

3. Filebeat如何保持檔案狀態
Filebeat 通過固定周期將檔案狀態存盤在磁盤 Registry檔案中來記錄每個檔案的狀態,
該狀態就是 Harvester 讀取的檔案內容 ,井確保所有內容都被發送 時記錄的是最后一行的偏移量,如果 Output Elasticsearch 或者 Kafka 等變得不可用時, Filebeat 將跟蹤最后一次發送的狀態,直到 Output 恢復可用時才會繼續讀取檔案,檔案狀態資訊被每個 Pros ctor 保存在內容中, 出現例外導致 Filebeat 退出或者需 新啟動 Filebeat時,檔案狀態資訊將從 Registry件中讀取到記憶體中, Harvest 就知道從哪里開始收集檔案中的內容了,
Filebeat 每個檔案都會通過一個唯一標識來識別其是否己經被 Harvester 收集過,
通過clean_removed和clean_inactive 這兩個引數來控制 Registry檔案的大小,
4. Filebeat如何確保資料不丟失

5.性能特性
-
穩定可靠
Filebeat 會記錄每次讀取日志的 offset 值,如果出現例外導致行程中斷,那么恢復后,Filebeat 可以從中斷前的位置繼續讀取,從而保證資料不會丟失, -
自動流控
當 Filbeat Kafka 或者 lasticsearc 等接收端寫入資料時,如果接收端處理資料緩慢, Filebeat 將自動級訓讀取日志的速度,以免造成日志擁堵,當接收端恢復正常后, Filebeat 將繼續讀取日志并發送給 Kafka 或者 Elasticsearch 等接收端.
智能運維從0搭建大規模分布式AIOps系統
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/277492.html
標籤:其他
