主頁 > 後端開發 > 線上服務的FGC問題排查,看這篇就夠了!

線上服務的FGC問題排查,看這篇就夠了!

2020-10-08 09:00:49 後端開發

線上服務的GC問題,是Java程式非常典型的一類問題,非常考驗工程師排查問題的能力,同時,幾乎是面試必考題,但是能真正答好此題的人并不多,要么原理沒吃透,要么缺乏實戰經驗,

過去半年時間里,我們的廣告系統出現了多次和GC相關的線上問題,有Full GC過于頻繁的,有Young GC耗時過長的,這些問題帶來的影響是:GC程序中的程式卡頓,進一步導致服務超時從而影響到廣告收入,

這篇文章,我將以一個FGC頻繁的線上案例作為引子,詳細介紹下GC的排查程序,另外會結合GC的運行原理給出一份實踐指南,希望對你有所幫助,內容分成以下3個部分:

1、從一次FGC頻繁的線上案例說起

2、GC的運行原理介紹

3、排查FGC問題的實踐指南


01 從一次FGC頻繁的線上案例說起

去年10月份,我們的廣告召回系統在程式上線后收到了FGC頻繁的系統告警,通過下面的監控圖可以看到:平均每35分鐘就進行了一次FGC,而程式上線前,我們的FGC頻次大概是2天一次,下面,詳細介紹下該問題的排查程序,


1. 檢查JVM配置

通過以下命令查看JVM的啟動引數:
ps aux | grep "applicationName=adsearch"

-Xms4g -Xmx4g -Xmn2g -Xss1024K
-XX:ParallelGCThreads=5
-XX:+UseConcMarkSweepGC
-XX:+UseParNewGC
-XX:+UseCMSCompactAtFullCollection
-XX:CMSInitiatingOccupancyFraction=80

可以看到堆記憶體為4G,新生代為2G,老年代也為2G,新生代采用ParNew收集器,老年代采用并發標記清除的CMS收集器,當老年代的記憶體占用率達到80%時會進行FGC,

進一步通過 jmap -heap 7276 | head -n20 可以得知新生代的Eden區為1.6G,S0和S1區均為0.2G,


2. 觀察老年代的記憶體變化

通過觀察老年代的使用情況,可以看到:每次FGC后,記憶體都能回到500M左右,因此我們排除了記憶體泄漏的情況,


3. 通過jmap命令查看堆記憶體中的物件

通過命令 jmap -histo 7276 | head -n20

上圖中,按照物件所占記憶體大小排序,顯示了存活物件的實體數、所占記憶體、類名,可以看到排名第一的是:int[],而且所占記憶體大小遠遠超過其他存活物件,至此,我們將懷疑目標鎖定在了 int[] .


4. 進一步dump堆記憶體檔案進行分析

鎖定 int[] 后,我們打算dump堆記憶體檔案,通過可視化工具進一步跟蹤物件的來源,考慮堆轉儲程序中會暫停程式,因此我們先從服務管理平臺摘掉了此節點,然后通過以下命令dump堆記憶體:

jmap -dump:format=b,file=heap 7276

通過JVisualVM工具匯入dump出來的堆記憶體檔案,同樣可以看到各個物件所占空間,其中int[]占到了50%以上的記憶體,進一步往下便可以找到 int[] 所屬的業務物件,發現它來自于架構團隊提供的codis基礎組件,


5. 通過代碼分析可疑物件

通過代碼分析,codis基礎組件每分鐘會生成約40M大小的int陣列,用于統計TP99 和 TP90,陣列的生命周期是一分鐘,而根據第2步觀察老年代的記憶體變化時,發現老年代的記憶體基本上也是每分鐘增加40多M,因此推斷:這40M的int陣列應該是從新生代晉升到老年代,

我們進一步查看了YGC的頻次監控,通過下圖可以看到大概1分鐘有8次左右的YGC,這樣基本驗證了我們的推斷:因為CMS收集器默認的分代年齡是6次,即YGC 6次后還存活的物件就會晉升到老年代,而codis組件中的大陣列生命周期是1分鐘,剛好滿足這個要求,

至此,整個排查程序基本結束了,那為什么程式上線前沒出現此問題呢?通過上圖可以看到:程式上線前YGC的頻次在5次左右,此次上線后YGC頻次變成了8次左右,從而引發了此問題,


6. 解決方案

為了快速解決問題,我們將CMS收集器的分代年齡改成了15次,改完后FGC頻次恢復到了2天一次,后續如果YGC的頻次超過每分鐘15次還會再次觸發此問題,當然,我們最根本的解決方案是:優化程式以降低YGC的頻率,同時縮短codis組件中int陣列的生命周期,這里就不做展開了,


02 GC的運行原理介紹

上面整個案例的分析程序中,其實涉及到很多GC的原理知識,如果不懂得這些原理就著手處理,其實整個排查程序是很抓瞎的,

這里,我選擇幾個最核心的知識點,展開介紹下GC的運行原理,最后再給出一份實踐指南,


1. 堆記憶體結構

大家都知道: GC分為YGC和FGC,它們均發生在JVM的堆記憶體上,先來看下JDK8的堆記憶體結構:

可以看到,堆記憶體采用了分代結構,包括新生代和老年代,新生代又分為:Eden區,From Survivor區(簡稱S0),To Survivor區(簡稱S1區),三者的默認比例為8:1:1,另外,新生代和老年代的默認比例為1:2,

堆記憶體之所以采用分代結構,是考慮到絕大部分物件都是短生命周期的,這樣不同生命周期的物件可放在不同的區域中,然后針對新生代和老年代采用不同的垃圾回收演算法,從而使得GC效率最高,


2. YGC是什么時候觸發的?

大多數情況下,物件直接在年輕代中的Eden區進行分配,如果Eden區域沒有足夠的空間,那么就會觸發YGC(Minor GC),YGC處理的區域只有新生代,因為大部分物件在短時間內都是可識訓掉的,因此YGC后只有極少數的物件能存活下來,而被移動到S0區(采用的是復制演算法),

當觸發下一次YGC時,會將Eden區和S0區的存活物件移動到S1區,同時清空Eden區和S0區,當再次觸發YGC時,這時候處理的區域就變成了Eden區和S1區(即S0和S1進行角色交換),每經過一次YGC,存活物件的年齡就會加1,


3. FGC又是什么時候觸發的?

下面4種情況,物件會進入到老年代中:

1、YGC時,To Survivor區不足以存放存活的物件,物件會直接進入到老年代,

2、經過多次YGC后,如果存活物件的年齡達到了設定閾值,則會晉升到老年代中,

3、動態年齡判定規則,To Survivor區中相同年齡的物件,如果其大小之和占到了 To Survivor區一半以上的空間,那么大于此年齡的物件會直接進入老年代,而不需要達到默認的分代年齡,

4、大物件:由-XX:PretenureSizeThreshold啟動引數控制,若物件大小大于此值,就會繞過新生代, 直接在老年代中分配,


當晉升到老年代的物件大于了老年代的剩余空間時,就會觸發FGC(Major GC),FGC處理的區域同時包括新生代和老年代,除此之外,還有以下4種情況也會觸發FGC:

1、老年代的記憶體使用率達到了一定閾值(可通過引數調整),直接觸發FGC,

2、空間分配擔保:在YGC之前,會先檢查老年代最大可用的連續空間是否大于新生代所有物件的總空間,如果小于,說明YGC是不安全的,則會查看引數 HandlePromotionFailure 是否被設定成了允許擔保失敗,如果不允許則直接觸發Full GC;如果允許,那么會進一步檢查老年代最大可用的連續空間是否大于歷次晉升到老年代物件的平均大小,如果小于也會觸發 Full GC,

3、Metaspace(元空間)在空間不足時會進行擴容,當擴容到了-XX:MetaspaceSize 引數的指定值時,也會觸發FGC,

4、System.gc() 或者Runtime.gc() 被顯式呼叫時,觸發FGC,


4. 在什么情況下,GC會對程式產生影響?

不管YGC還是FGC,都會造成一定程度的程式卡頓(即Stop The World問題:GC執行緒開始作業,其他作業執行緒被掛起),即使采用ParNew、CMS或者G1這些更先進的垃圾回收演算法,也只是在減少卡頓時間,而并不能完全消除卡頓,

那到底什么情況下,GC會對程式產生影響呢?根據嚴重程度從高到底,我認為包括以下4種情況:

1、FGC過于頻繁:FGC通常是比較慢的,少則幾百毫秒,多則幾秒,正常情況FGC每隔幾個小時甚至幾天才執行一次,對系統的影響還能接受,但是,一旦出現FGC頻繁(比如幾十分鐘就會執行一次),這種肯定是存在問題的,它會導致作業執行緒頻繁被停止,讓系統看起來一直有卡頓現象,也會使得程式的整體性能變差,

2、YGC耗時過長:一般來說,YGC的總耗時在幾十或者上百毫秒是比較正常的,雖然會引起系統卡頓幾毫秒或者幾十毫秒,這種情況幾乎對用戶無感知,對程式的影響可以忽略不計,但是如果YGC耗時達到了1秒甚至幾秒(都快趕上FGC的耗時了),那卡頓時間就會增大,加上YGC本身比較頻繁,就會導致比較多的服務超時問題,

3、FGC耗時過長:FGC耗時增加,卡頓時間也會隨之增加,尤其對于高并發服務,可能導致FGC期間比較多的超時問題,可用性降低,這種也需要關注,

4、YGC過于頻繁:即使YGC不會引起服務超時,但是YGC過于頻繁也會降低服務的整體性能,對于高并發服務也是需要關注的,

其中,「FGC過于頻繁」和「YGC耗時過長」,這兩種情況屬于比較典型的GC問題,大概率會對程式的服務質量產生影響,剩余兩種情況的嚴重程度低一些,但是對于高并發或者高可用的程式也需要關注,


03 排查FGC問題的實踐指南

通過上面的案例分析以及理論介紹,再總結下FGC問題的排查思路,作為一份實踐指南供大家參考,


1. 清楚從程式角度,有哪些原因導致FGC?

1、大物件:系統一次性加載了過多資料到記憶體中(比如SQL查詢未做分頁),導致大物件進入了老年代,

2、記憶體泄漏:頻繁創建了大量物件,但是無法被回收(比如IO物件使用完后未呼叫close方法釋放資源),先引發FGC,最后導致OOM.

3、程式頻繁生成一些長生命周期的物件,當這些物件的存活年齡超過分代年齡時便會進入老年代,最后引發FGC. (即本文中的案例)

4、程式BUG導致動態生成了很多新類,使得 Metaspace 不斷被占用,先引發FGC,最后導致OOM.

5、代碼中顯式呼叫了gc方法,包括自己的代碼甚至框架中的代碼,

6、JVM引數設定問題:包括總記憶體大小、新生代和老年代的大小、Eden區和S區的大小、元空間大小、垃圾回收演算法等等,


2. 清楚排查問題時能使用哪些工具

1、公司的監控系統:大部分公司都會有,可全方位監控JVM的各項指標,

2、JDK的自帶工具,包括jmap、jstat等常用命令:

查看堆記憶體各區域的使用率以及GC情況
jstat -gcutil -h20 pid 1000

查看堆記憶體中的存活物件,并按空間排序
jmap -histo pid | head -n20

dump堆記憶體檔案
jmap -dump:format=b,file=heap pid

3、可視化的堆記憶體分析工具:JVisualVM、MAT等


3. 排查指南

1、查看監控,以了解出現問題的時間點以及當前FGC的頻率(可對比正常情況看頻率是否正常)

2、了解該時間點之前有沒有程式上線、基礎組件升級等情況,

3、了解JVM的引數設定,包括:堆空間各個區域的大小設定,新生代和老年代分別采用了哪些垃圾收集器,然后分析JVM引數設定是否合理,

4、再對步驟1中列出的可能原因做排除法,其中元空間被打滿、記憶體泄漏、代碼顯式呼叫gc方法比較容易排查,

5、針對大物件或者長生命周期物件導致的FGC,可通過 jmap -histo 命令并結合dump堆記憶體檔案作進一步分析,需要先定位到可疑物件,

6、通過可疑物件定位到具體代碼再次分析,這時候要結合GC原理和JVM引數設定,弄清楚可疑物件是否滿足了進入到老年代的條件才能下結論,


04 最后的話

這篇文章通過線上案例并結合GC原理詳細介紹了FGC的排查程序,同時給出了一份實踐指南,

后續會以類似的方式,再分享一個YGC耗時過長的案例,希望能幫助大家吃透GC問題排查,如果覺得本文對你有幫助,請大家關注我的個人公眾號!


- End -

作者簡介:程式員,985碩士,前亞馬遜Java工程師,現58轉轉技術總監,持續分享技術和管理方向的文章,如果感興趣,可微信掃描下面的二維碼關注我的公眾號:『IT人的職場進階』

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/162673.html

標籤:Java

上一篇:RocketMq單個部署啟動及用例

下一篇:RPC的超時設定,一不小心就是線上事故

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more