現在的 IT 系統越來越復雜,而微服務也被廣泛使用于越來越多的大型 IT 系統中, 微服務是一種軟體開發技術- 面向服務的體系結構(SOA)架構樣式的一種變體,將應用程式構造為一組松散耦合的服務,在微服務體系結構中,服務是細粒度的,協議是輕量級的,

對于一些大型的 IT 系統來說,微服務的個數可能達到 1000 多個或者更多,如果我們的系統變得很慢,我們想查出是哪個環節出了問題,如果沒有一個很好的可觀測性的工具,我們有時是一頭的霧水,很幸運的是 Elastic Stack 提供了一套完整的 APM (應用性能監控)可觀測性軟體堆疊,為我們對微服務的除錯提供了完美的解決方案,
在今天的文章中,我們將使用一個簡單的例子來展示如何從0基礎到一個掌控微服務可觀察性的專家,你不需要具有先前的很多知識,對于 Elastic APM 不是很熟的開發者來說,你可以閱讀我之前的文章 “Solutions:應用程式性能監控/管理(APM)實踐”,
在今天的實踐中,我將使用如下的代碼來進行展示:
git clone https://github.com/liu-xiao-guo/from-zero-to-hero-with-observability
在做實驗之前,請使用上面的命令下載代碼,
Service Map 是應用程式體系結構中已檢測服務的實時可視表示, 它顯示了這些服務的連接方式,以及諸如平均交易持續時間,每分鐘請求數和每分鐘錯誤數之類的高級指標, 如果啟用,服務圖還將與機器學習集成-基于例外檢測分數的實時健康指標, 所有這些功能都可以幫助您快速直觀地評估服務的狀態和運行狀況,上面的例子的微服務服務圖如下:

整個軟體有如下的幾個部分組成:
- h2:是一個本地資料庫
- backend-java :是一個 Spring 的網路服務器,它接受來自 fronend-react 的資料請求
- localhost:3000: 是一個服務器,它用作資料展示
- backend-golang:它是一個由 Golang 寫的服務,可以訪問 redis 資料庫
在下面,我們一步一步地來展示如何從 0 開始啟動微服務的可觀測性,我將以 7.10 版本為例來進行展示,
安裝
Elasticsearch 及 Kibana
我們可以按照我們的文章 “Elastic:菜鳥上手指南” 來安裝及運行我們的 Elasticsearch 及 Kibana,安裝完后,并安裝相應的指令分別進行運行,
APM server
我們接下來安裝 APM 服務器,打開 Kibana:



我們可以根據自己的作業系統來分別進行安裝,在我的實驗中,我將以 macOS 為例來進行展示,通過這種安裝的好處是它永遠可以匹配你當前運行的 Elasticsearch 及 Kibana 的版本,同時你也可以找到適合自己 OS 的 APM Server 的安裝方法,
在我們啟動 APM 服務器之前,我們必須修改 APM server 安裝根目錄下的組態檔 apm-server.yml,我們必須在這個檔案的最后部分添加如下的一句話:
apm-server.rum.enabled: true
這個原因是因為在我們的實驗中有 frontend-react 這個服務,我們通過打開 RUM (Real User Monitoring) 可以監視從網頁發出的請求,
我們可以通過如下的方法來進行運行 APM server:

如果一切正常,我們可以看到如上所示的資訊,它表明我們的 APM server 已經成功地被安裝好了,
Redis
在我們的實踐中,我們也使用 redis 存盤,如果大家還沒安裝好自己的 redis 的話,我們可以參考我之前的文章 “使用Elastic Stack對Redis監控” 來對 Redis 進行安裝,
你可以查看一下你下載的專案 https://github.com/liu-xiao-guo/from-zero-to-hero-with-observability,里面有一個叫做 dump.rdb 的檔案:
$ pwd
/Users/liuxg/demos/from-zero-to-hero-with-observability
liuxg:from-zero-to-hero-with-observability liuxg$ ls
LICENSE backend-golang docker-compose.yml images
README.md backend-java frontend-react redis-data
liuxg:from-zero-to-hero-with-observability liuxg$ ls redis-data/
dump.rdb
這個是 redis 的資料檔案,我們可以直接把這個檔案拷貝到 macOS 的如下目錄:
$ pwd
/usr/local/var/db/redis
liuxg:redis liuxg$ ls
dump.rdb redis-server.log redis.log
這樣當我們啟動 redis 的時候,我們可以看到預先配置好的資料,我們通過如下的方法來運行 redis:
sudo redis-server /usr/local/etc/redis.conf
一旦 redis 運行成功后,我們可以使用如下的命令來進行檢查:
$ redis-cli
127.0.0.1:6379> ping
PONG
127.0.0.1:6379> keys *
1) "ferrari"
2) "toyota"
3) "koenigsegg"
4) "tesla"
5) "bugatti"
6) "mclaren"
7) "exotic-cars"
8) "nissan"
9) "mercedes"
10) "lamborghini"
11) "base-price-default"
12) "lexus"
13) "ford"
127.0.0.1:6379>
我們可以看到 redis 運行于默認的埠 6379 上,如果你能看到上面的輸出,則表明你的配置是成功的,
至此,我們的安裝以及全部完成,接下來我們需要來完成各個服務的啟動,
啟動服務
在這個章節里,我將來啟動各個服務,
backend-golang
這個是一個 Golang 的服務,在這個專案中有一個叫做 run-locally.sh 的腳本檔案,我們打開這個檔案,并做如下的配置:
#!/bin/bash
# set -x
export ELASTIC_APM_SERVER_URL=http://localhost:8200
export ELASTIC_APM_SECRET_TOKEN=
export REDIS_URL=127.0.0.1:6379
go build -o backend-golang
./backend-golang >> backend-golang.json
在上面,我們配置了 APM Server 的地址,由于它可以訪問 redis,所以我也配置 redis 的訪客地址及埠,

這樣我們的配置就基本完成了,當我們編譯并運行時可能會出現不能訪問 github 的一些庫的情況,我們可以在 terminal 中先執行如下的命令,讓后再執行 run-locally.sh:
export GO111MODULE=on
export GOPROXY=https://goproxy.io
然后再執行:
./run-locally.sh
這樣我們就完成了 frontend-react 的啟動作業了,
backend-java
首先,我們打開地址:https://search.maven.org/search?q=a:elastic-apm-agent,并找到最新的 elastic-apm-agent 的版本號碼:

在上面顯示有一個叫做 1.19.0 的發布版,我們可以點擊右邊的下載按鈕進行直接下載,并拷貝到 backend-java 的根目錄下,或者,我們直接有如下的 run-locally.sh 來幫我們進行下載,
我們接下來配置 backend-java,打開這個專案的根目錄,我們找 run-locally.sh 這個腳本檔案:

在上面我們必須修改 AGENT_VERSION 這個變數的值,如果我們沒有下載 elastic-apm-agent 的話,在下來的 curl 指令會幫我們下載,這個依賴于你的下載速度,
我們做如下的配置:
export ELASTIC_APM_SERVER_URL=http://localhost:8200
export ELASTIC_APM_SECRET_TOKEN=
export ESTIMATOR_URL=http://localhost:8888
我們通過如下的命令來運行這個服務:
/run-locally.sh
當我們成功運行時,我們可以看到:

這是一個 Spring 的 Web 服務,
frontend-react
這個是我們的前端,我們打開這個專案,并找到 run-locally.sh 腳本檔案,

我們對它作如下的配置:
export ELASTIC_APM_SERVER_URL=http://localhost:8200
export BACKEND_URL=http://localhost:8080
我們在運行 run-locally.sh 之前,需要使用使用如下的命令來安裝 env-cmd:
npm install env-cmd
然后,我們使用如下的命令來啟動:
./run-locally.sh
這樣我們的 frontend-react 啟動起來了,我們可以在瀏覽器中訪問 http:.//localhost:3000:

從上面,我們可以看出來這是一個顯示汽車資訊及價格的一個串列,我們可以直接在網頁上點擊每個項進行修改,洗掉或創建一個新的汽車,
通過 APM 來展示微服務的可觀察性
展示 Service Map
我們直接進入 Obverability overview 頁面:


從上面的界面顯示,我們可以看出來有3個 Services,我們點擊 View in app:


從上面我們可以看出來有三個服務:backend-java, frontend-react 以及 backend-golang,我們點擊 Service Map:

我們可以點擊每個節點,并查看詳細資訊:

從上面的圖,我們可以看出來 frontend-react 呼叫 backend-java,而 backend-java 呼叫 h2 資料庫,到目前為止 backend-goland 是單獨的一個服務,它和其它的服務沒有任何的聯系,我們接下來在 localhost:3000 來創建一個新的汽車:

點擊上面的 Save 按鈕:

我們可以看到新添加的叫做 Hyundai 的汽車,這個時候,我們重新重繪我們之前的 Service Map 界面:

這個時候,我們會發現 Service Map 有了新的變化, backend-java 這個時候呼叫 backend-golang 服務了,
我們接下來查看一個典型的 transaction:



從上面我們可以看出從界面點擊 New Car 所創建的一個 transaction 經歷的所有 span,每個 span 都有相應的執行時間,我們很清楚整個呼叫的時間是花在哪里,如果我們的應用出現性能問題,我們很容從上面的圖中看出來,上面的每個不同的顏色代表不同的微服務或資料庫訪問,我們可以點進每個 span 去查看具體的執行,比如點擊上面的 INSERT INTO car:

這個就是 APM 最好的地方,它很清楚地展示了我們的代碼的執行情況,
除錯應用
我們接下來使用 UI 來創建一個新的汽車:

我們按照如上所示的資料來添加一個叫做 Ferrari (法拉利)的汽車,點擊 Save 按鈕:

我可以看到一個新增加的一個 Ferrari 汽車,但是我們會發現這次的操作和之前添加 Hyundai 所需要的時間要長很多,它需要花去5秒鐘的時間,這到底是為什么呢?我們必須找出問題所在的原因,
我們還是回到之前 Add car 的那個 transaction:

我們選擇執行時間較長的那個 transaction:

我們很快地發現在 calculateEstimate 的 span 里,它幾乎占據了整個的執行時間,將近5秒的時間,我們直接點擊上面的鏈接:

首先我們不用想很多,它清楚地指出了在 backend-goland 服務中的 main.go 109 行代碼有問題,點擊 Metadata:

它顯示 brand 是 Ferrari,model 是 2020年,生產日期是 2020 年,
我們直接打開 main.go 檔案:

在上面的代碼中,我們定義了一個叫做 calculateEstimate 的 span,在這個代碼中,我們定義了 brand, model 以及 year,這些對應于我們上面顯示的 metadata,
我們向下滾動追查 calculateEstimate 函式:
func calculateEstimate(ctx context.Context, brand string, model string, year int) Estimate {
logger.Info("Value estimation for brand: "+brand,
zap.String("event.dataset", eventDataset))
estimate := Estimate{
Brand: brand,
Model: model,
Year: year,
}
brand = strings.ToLower(brand)
// Retrieve the base price for the car
redisConn := apmredigo.Wrap(redisPool.Get()).WithContext(ctx)
defer redisConn.Close()
basePrice, err := redis.Int(redisConn.Do("GET", brand))
if err != nil {
logger.Error(fmt.Sprintf("Error getting base price for '%s'", brand),
zap.Error(err), zap.String("event.dataset", eventDataset))
}
if basePrice == 0 {
basePrice, err = redis.Int(redisConn.Do("GET", basePriceDefault))
if err != nil {
logger.Error("Error getting base price default", zap.Error(err),
zap.String("event.dataset", eventDataset))
}
}
// Calculate mark up of 5% on top of the base price
markUp := int(((float64(5) * float64(basePrice)) / float64(100)))
// Exotic cars have an additional markup
isExotic, err := redis.Bool(redisConn.Do("SISMEMBER", exoticCars, brand))
if err != nil {
logger.Error(fmt.Sprintf("Error checking if '%s' is exotic", brand),
zap.Error(err), zap.String("event.dataset", eventDataset))
}
if isExotic {
markUp += additionalMarkUp()
}
estimate.Estimate = basePrice + markUp
return estimate
}
從上面的代碼中,我們可以看出來有兩個 Redis 操作:
- GET
-
SISMEMBER
他們分別對應于我們之前顯示的圖:

那么我們的時間到底是花在哪里呢?我們先來查看如下的一個呼叫:
// Exotic cars have an additional markup
isExotic, err := redis.Bool(redisConn.Do("SISMEMBER", exoticCars, brand))
if err != nil {
logger.Error(fmt.Sprintf("Error checking if '%s' is exotic", brand),
zap.Error(err), zap.String("event.dataset", eventDataset))
}
if isExotic {
markUp += additionalMarkUp()
}
在上面的 SISMEMBER 呼叫中它檢查輸入的汽車是否為 exotic (外來的)汽車,如果是需要呼叫 additionalMarkup(),這是一個模擬的針對外來汽車需要額外執行的函式,
我們打開 redis 進行檢查:
$ redis-cli
127.0.0.1:6379> ping
PONG
127.0.0.1:6379> keys *
1) "ferrari"
2) "toyota"
3) "koenigsegg"
4) "tesla"
5) "bugatti"
6) "mclaren"
7) "exotic-cars"
8) "nissan"
9) "mercedes"
10) "lamborghini"
11) "base-price-default"
12) "lexus"
13) "ford"
127.0.0.1:6379> SMEMBERS exotic-cars
1) "ferrari"
2) "mercedes"
3) "lamborghini"
4) "koenigsegg"
5) "bugatti"
6) "mclaren"
127.0.0.1:6379>
從上面的圖中,我們可以看出來 ferrari 確實是一個 exotic 的車,那么它需要執行如下的函式:
func additionalMarkUp() int {
logger.Debug("Waiting for the market data...",
zap.String("event.dataset", eventDataset))
time.Sleep(5 * time.Second)
return rand.Intn(3) * 10000
}
在上面的函式中,我們使用了一個 Sleep 5秒的辦法把當前的執行緒停止5秒,這也就是為什么我可以看到整個 calculateEstimate 需要大約5秒的時間來完成的原因,
假如我們相對某段代碼增加新的監視,我們可以仿照如下的辦法來進行,我們重新撰寫 calculateEstimate()
func calculateEstimate(ctx context.Context, brand string, model string, year int) Estimate {
logger.Info("Value estimation for brand: "+brand,
zap.String("event.dataset", eventDataset))
estimate := Estimate{
Brand: brand,
Model: model,
Year: year,
}
brand = strings.ToLower(brand)
// Retrieve the base price for the car
redisConn := apmredigo.Wrap(redisPool.Get()).WithContext(ctx)
defer redisConn.Close()
basePrice, err := redis.Int(redisConn.Do("GET", brand))
if err != nil {
logger.Error(fmt.Sprintf("Error getting base price for '%s'", brand),
zap.Error(err), zap.String("event.dataset", eventDataset))
}
if basePrice == 0 {
basePrice, err = redis.Int(redisConn.Do("GET", basePriceDefault))
if err != nil {
logger.Error("Error getting base price default", zap.Error(err),
zap.String("event.dataset", eventDataset))
}
}
// Calculate mark up of 5% on top of the base price
markUp := int(((float64(5) * float64(basePrice)) / float64(100)))
// Exotic cars have an additional markup
isExotic, err := redis.Bool(redisConn.Do("SISMEMBER", exoticCars, brand))
if err != nil {
logger.Error(fmt.Sprintf("Error checking if '%s' is exotic", brand),
zap.Error(err), zap.String("event.dataset", eventDataset))
}
if isExotic {
myspan, ctx := opentracing.StartSpanFromContext(request.Context(), "additionalMarkUp")
markUp += additionalMarkUp()
myspan.Finish()
}
estimate.Estimate = basePrice + markUp
return estimate
}
在上面,我為如下的代碼進行了修改:
if isExotic {
myspan, ctx := opentracing.StartSpanFromContext(request.Context(), "additionalMarkUp")
markUp += additionalMarkUp()
myspan.Finish()
}
我們相對 addtionalMarkup 的呼叫進行監視,最終在我們的 Add car 中會有一個相應的 additionalMarkup span 出現,為了能夠是這個代碼起作用,我們重新啟動各個服務,我們在 UI 添加一個新的汽車 lamborghini,這顯然是一個 exotic 汽車:

同樣地,我們可以看到新添加的汽車:

由于 lamborghini (蘭博基尼) 是一個 exotic 的汽車,毫無例外地我們可以發現它需要5秒的時間才能在頁面上進行顯示,
我們重新來打開 Add car 這個 transaction,一定要選最新這個 transation:

如上圖所示,我們可以看到一個叫做 addtionalMarkUp 的 span,
運用 Filebeat 來提高可觀測性
Elastic Stack 最大的優點就是可以把指標,日志以及 APM 集成到一個環境中提供全面的可觀測性,在這節中,我們來安裝 filebeat 來提高整個微服務的可觀測性,首先我們按照之前的文章 “Beats 入門教程 (二)” 來進行安裝 Filebeat,
我們使用如下的命令來啟動對 System 模塊的監控:
./filebeat modules enable system
我們接著修改 filebeat.yml 的配值檔案:
filebeat.yml
filebeat.inputs:
# Each - is an input. Most options can be set at the input level, so
# you can use different inputs for various configurations.
# Below are the input specific configurations.
- type: log
# Change to true to enable this input configuration.
enabled: true
# Paths that should be crawled and fetched. Glob based paths.
paths:
- /var/log/*.log
- /Users/liuxg/demos/from-zero-to-hero-with-observability/backend-golang/*.json
- /Users/liuxg/demos/from-zero-to-hero-with-observability/backend-java/*.json
json.keys_under_root: true
json.overwrite_keys: true
我們修改 filebeat 的前面部分為上面的內容,上面的路徑依賴于你自己的日志位置需要進行相應的修改,
我們接下來運行 filebeat:
./filebeat setup
./filebeat -e

上面顯示連接到 Elasticsearch 是成功的,


上面的 Logs 中可以看出來有兩中 logs,點擊 View in App:

在上面它顯示了目前所有的 Log,我們回到前段的界面,重新輸入一個新的汽車:

點擊 SAVE 按鈕,我們回到 Logs 應用中:

當我們搜索的時候,我們會發現一些關于這個輸入相關的 log,如上所示,我們可以找到 Test 相關的日志,
我們現在重新回到 APM 應用的界面,我們找到 Add car 這個 transaction,我們確保點擊最新的一個 transaction,

點擊上面的 Trace logs:

我們可以查看到當前 transaction 的所有日志,準確地說我們可以把 APM 和日志系結在一起,在查看 APM 的同時,我們也可以查看日志,
總結
在本文章中,我詳述了如何使用 Elastic Stack 來對一個多微服務的 IT 系統進行性能監視,并提供良好的可觀測性,Elastic Stack 在同一個軟體堆疊中同時提供日志,指標以及 APM 的全方位客觀則行,對于開發者來說,我們可以利用這個來對我們的系統進行監視,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/232629.html
標籤:AI
下一篇:前端的自動化重構
