可靠性工程縮短停機時間
瞭解 Intel IT 如何利用可靠性工程縮短製造系統意外的停機時間。
有鑑於確保製造廠房全年無休滿載運作日益重要,Intel Manufacturing IT (MIT) 於是訂定目標,希望在 2025 年前實現「四個九」(99.99%) 的可用性(或停機時間為 0.01%)。
為協助實現這個雄心壯志,我們增設了可靠性工程師這項職務,期望能增強 Intel 製造設施的復原能力。可靠性工程(RE)這個新興作法,首先是由雲端型數位服務供應商所開發。這項作法側重於打造出具備失效耐受能力的系統,即使個別元件失效也能繼續提供服務。
RE 的核心是在個別應用程式及其互動之中,找出促進服務連續性的設計模式。這個方法需要 RE 團隊與開發團隊之間相互協作,才能協助確保收到增強復原能力機會的相關意見反應,並且在系統設計融入這些意見。可靠性工程師與開發者密切合作,協助讓他們首要的復原能力目標與開發團隊的功能交付目標保持一致,進而讓我們能夠打造符合相關人員需求的穩定可靠解決方案。
我們的可靠性工程師會主動解決潛在漏洞,並制定策略,減輕失效對製造作業產生的效應。在識別常見失效模式、擬定標準以及設計降低失效風險的解決方案方面,他們扮演了關鍵角色。
- 可靠性工程師利用失效模式與效應分析(FMEA)方法,讓我們得以開發出適用於所有系統的復原能力成熟度模型(RMM)。
- 這個方法協助我們識別出 200 多個復原能力改善專案,然後在未來兩年內將專案加入我們的開發時程計劃。
- 借助這些 RE 計劃,加上執行諸多營運改善活動,相較於 2019 年,意外的工廠停機時間縮短達 50%。
由我們的成果可見,RE 這類方法可如何將復原能力的效益擴及製造環境,幫助我們為日後採用雲端型微服務環境做好準備。我們已經證明,採用一套標準的 RE 工具,並主動運用這些工具提高復原能力,即可實現同級最佳的 IT 系統可靠性與可用性。