昀哥(老兵筆記) 20200202
有人問為什么不能吸取2003年SARS的教訓?為什么不帶護目鏡?為什么不知道糞便里有活性病毒?十七年前不就都知道了嗎?
1
并不是每個行業每個物體都能吸取同行的經驗教訓,雖然平時我們也都在學習借鑒別人的成功與錯誤,
最近的一個例子是,京東2020年1月8日的無門檻優惠券事件,與2019年1月20日拼多多無門檻優惠券事故如出一轍,
前者把京東自營小家電品類上到了200元無門檻券的適用區域里,時間長達五十分鐘,后者是把一個已過期的運營活動誤操作,導致凌晨重新上線,羊毛黨徒們徹夜狂歡,
很遺憾,這樣的悲劇每年可能都會來一次,
2
我曾寫道:
整整齊齊擺放的行李箱,提醒我們仍然是善于遺忘的愚蠢的人類,
——鄭昀,那些年我們一起犯過的錯
航空業與醫療業對錯誤的態度是迥然不同的,航空業更愿意正視錯誤,飛行員們總體上說對自身的失誤都抱著公開和坦誠的態度,部分原因是錯誤會導致他們自己死亡,這個行業里有強勢并獨立的組織專門負責對空難進行調查,失敗不會被當成控訴某一位飛行員的理由,而會被視為能讓所有飛行員、航空公司和管理者們學習進步的一次寶貴機會,
而醫療界相對來說,死的更多是患者,還有論文的KPI壓力,所以行業偏保守,但SARS和本次肺炎事件都威脅到了一線醫護人員的生命安全,所以可能對行業協會有一定促進作用,
3
豐田生產體系和管理方法中有一條是人員自主化:
人員自主化是人員與機械設備的有機配合行為,生產線上產生質量、數量、品種上的問題機械設備自動停機,并有指示顯示,而任何人發現故障問題都有權立即停止生產線,主動排除故障,解決問題,同時將質量管理溶入生產程序,變為每一個員工的自主行為,將一切作業變為有效勞動,
它強調一種由下而上的管理,各項作業流程的規定、實施和監督都是由現場作業人員通過相互討論、學習而形成的,而不是領導給你拍了個作業規范,這某種程度上與航空航天是相通的,如果對待錯誤的態度是開誠布公的,那么整個系統就能從中學習,能取得進步,
4
經常看我的文章的人都知道,在日常作業中,對于事故處理,我們一向遵從航天二十字訣:定位準確、機理清楚、可以復現、措施有效、舉一反三,
我們堅持每錯必查、錯了又錯就整改、每錯必寫,用身體力行告訴每一個新員工直面錯誤、公開技術細節、分享給所有人,長此以往,每一次事故都會變為我們的財富,成為了團隊的傳承和家底,
RCA報告的標準格式為:
背景知識(Optional)問題現象影響范圍問題原因問題分析程序(Optional)解決辦法后續處理措施:如線上臟資料如何修復,如對用戶造成的影響如何彌補等(Optional)經驗教訓RCA型別:如代碼問題、實施問題、配置問題、設計問題、測驗問題
但即使是有了RCA制度和案例庫,我們日常作業仍然會掛一漏萬,畢竟人不是機器,那怎麼辦呢?
5
這么辦:
第一,在專業領域里,千萬不能讓外行領導內行!
我發現好多做管理的都不知道這一條,總覺得我做管理的能管天下萬事萬物,扯淡!
第二,投入人力物力在增長體系內功、有助傳承的長期專案上,工具化,通用化,標準化,自動化,資料化,醫療和IT以及其他各行各業多看看《清單革命》和《黑匣子思維》這兩本書,
在面對安全、審計、質量控制等要求時,更愿意選擇用“機器(注:這是一個泛指)”解決,而不是增加流程,增加中間節點,
酷殼陳皓說過,技術債是不能欠的,要殘酷無情地還債,很多事情,一開始不會有,那么就永遠不會有,一旦一個事情爛了,后面只能跟著一起爛,爛得越多,就越沒有人敢去還債,
所以凡是被不斷重復的程序,一定要將其工具化,系結到自動化流程之中,減少基層員工不必要的心智負擔,
第三,定期做災難演練,
近年來工業界有一種混沌工程(Chaos Engineering)理念,這是在分布式系統上進行實驗的學科,目的是建立對系統抵御生產環境中失控條件的能力以及信心,最早由Netflix及相關團隊提出,它的核心思想是,減少故障的最好方法就是讓故障經常性的發生,通過不斷重復失敗程序,持續提升系統的容錯和彈性能力,阿里巴巴對應的開源混沌工程工具名叫 ChaosBlade,就是專門做故障注入的,
比如阿里巴巴經常搞的斷網斷電演練和生產突襲,
你不能指望平常沒做過異地多活切機房,災難來臨的時候所有人能步調一致、有條不紊地切換流量和機房,
-EOF-
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/90031.html
標籤:其他
上一篇:實驗:結合多種編程語言,驗證頻繁呼叫函式是否會造成系統性能損失
下一篇:浮點數二分演算法
