各位好,目前遇到一個困惑的問題,就是RAC的第二個實體無法啟動,環境情況是:GRID和DB的版本都是12.2.0.1
作業系統:CENTOS7.8
故障背景:
安裝部署程序無任何出錯,只是安裝程序有一個警告印象比較深刻,就是提示Avahi服務正在運行,建議關閉,當時我直接忽略安裝,安裝程序很順利,然后直接上線運作一段時間都沒問題,
這個程序包括重啟過幾次節點2的實體,都是正常的,直到有一條,由于維護需要重啟了節點2的作業系統,作業系統起來后,實體2就一直無法啟動了,其alert日志如下:
2020-12-18T14:57:51.234732+08:00
LMS 1: 0 GCS shadows cancelled, 0 closed, 0 Xw survived, skipped 0
2020-12-18T14:57:51.234736+08:00
LMS 2: 0 GCS shadows cancelled, 0 closed, 0 Xw survived, skipped 0
Set master node info
2020-12-18T14:58:00.053624+08:00
Submitted all remote-enqueue requests
2020-12-18T14:58:01.495578+08:00
Dwn-cvts replayed, VALBLKs dubious
All grantable enqueues granted
Submitted all GCS remote-cache requests --這一步會卡很久,大概30分鐘,感覺是一直在重試(后面看節點1的日志也推測是)
2020-12-18T15:09:09.048173+08:00
DIAG (ospid: 128827) waits for event 'process diagnostic dump' for 0 secs.
2020-12-18T15:09:10.083280+08:00
Errors in file /u01/app/oracle/diag/rdbms/orcl/orcl2/trace/orcl2_lmon_128847.trc:
ORA-00481: LMON process terminated with error --最終LMON行程會終止實體
2020-12-18T15:09:10.130119+08:00
USER (ospid: 129179): terminating the instance due to error 481
與此同時,實體1是正常運行的,實體1的alert日志:

出現了大量得IPC Send timeout to 2.2的資訊,從資訊來看,是節點1無法得到節點2的回應,然后經過多次重試,所以出現了大量的IPC Send資訊,直覺是心跳網路出現了例外,
然而此時,2節點集群資源狀態是正常的,包括重啟節點2的集群服務,也能正常加入:
個人分析:
這個問題感覺是心跳線網路出了問題,但互ping私有網路是沒有問題的,互相ssh也沒問題,然后網上看到這個案例:https://www.anbob.com/archives/5052.html 跟我的i情況有點類似,其集群ocssd.log的報錯
很多都是相同,它這里說到啟用了avahi這個服務導致心跳網路例外,我檢查節點1和節點2,節點1的確是啟動了這個服務,我按照它的建議關閉了(但沒有重啟作業系統),然后重啟節點2的實體,故障報錯仍然一樣,另外一篇官方文章:http://blog.sina.com.cn/s/blog_4d22b9720102x8bh.html 也說到這個avahi服務會導致網卡重啟后會例外(跟我重啟節點2系統有吻合),但目前節點1不能重啟(上面有業務),接下來請教該如何方向排查?有碰過類似情況的朋友嗎?
另外目前心跳私有網路和public ip是公用一個交換機的,私有網路劃分了不同的vlan,不知這個是否有影響?
uj5u.com熱心網友回復:
從這個問題描述看看,基本確定是網路問題。當時啟動實體2的時候有沒有看看實體上的haip有沒有啟動?
后續先把這個avahi服務停掉。
另外,mos上ORA-481發現了幾個跟drm相關的bug,現在的drm關閉了嗎?
uj5u.com熱心網友回復:
你好,目前我也判斷是比較大可能私有網路出了問題,但不知怎樣證實,然后下一步,我想嘗試更換成獨立的交換機試試先,haip我看無論什么時候好像只有一個資源,我看過其他正常的RAC兩邊節點看到內容都是下面這樣的:
目前2個實體的avahi服務都停掉了(之前就節點1有這個服務,已停,但沒重啟作業系統)
drm好像沒動過,我也查過是有幾個BUG,但好像都是11G版本的,12.2.0.1好像沒有相關案例
另外我這里還說明一下:我SGA設定940G比較大的,所以我懷疑這個對網路沖擊很大,放在同一個交換機和千兆是否頂不住了(我當時安裝集群的時候提示SSH性能低,我忽略安裝)。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/238175.html
標籤:基礎和管理
下一篇:好用的SQL審核軟體推薦
