Intel® 伺服器主機板可糾正/無法糾正的 ECC 記憶體錯誤的基本診斷
注意 | 有關本文中所述的故障排除支援,請參閱您的伺服器平臺的技術 產品規格 。 |
我看到什麼?
記憶體模組的可更正和/或不可更正錯誤更正代碼 (ECC) 事件。例如:
毫米 級 ECC 感應器 SMI 處理器警告 記憶體:1,DIMM:D0 記憶體等級:1。 - 可 修正的 ECC / 其他可修正的記憶體錯誤 - 已斷言。
什麼是記憶體錯誤修正碼 (ECC) 可修正錯誤事件?
ECC 可修正錯誤表示給定雙列直插式記憶體模組 (DIMM) 在給定時間範圍內的閾值溢出。
如何修正:
記憶體資料錯誤記錄為可糾正或不可糾正。根據您遇到的錯誤類型, 請參閱 以下說明:
筆記 |
|
- 如果沒有災難性問題(紫屏死機(PSOD)或意外重新開機),並且可糾正的 ECC 錯誤(包括自我調整雙設備資料更正 (ADDDC) 錯誤)對於每個 DIMM 位置每 24 小時少於 10 個事件(在閾值限制內),則建議 監視 伺服器是否再次出現觸發該事件的每個 DIMM 位置的 ECC 錯誤。
- 如果出現災難性問題(紫屏死機(PSOD)或意外重新開機),並且每個DIMM位置的可糾正ECC錯誤(包括自我調整雙重裝置資料校正(ADDDC)錯誤)每24小時少於10個事件,建議按照以下步驟重新拔插每個DIMM位置:
- 關閉 系統電源並 拔下 交流電源線。
- 確定 要重新拔插的DIMM位置。請參閱您的伺服器平臺 的技術產品規格, 以識別 DIMM 位置。
- 重新拔插已識別的DIMM。
- 插入 交流電源線並 重新開啟系統電源 。
- 觀察 24 小時內是否有任何 ECC 錯誤再次發生。
- 如果 ECC 錯誤仍然存在且與重新插座相同的 DIM 位置相同,則生成SEL和調試日誌並將其發送到 Intel Customer Support
- BIOS 和韌體堆疊中引入了進階記憶體測試 (AMT) 功能,從適用于 Intel® 伺服器系統 S2600BP、S2600WF 和 S2600ST的 BIOS 修訂版 02.01.0014 開始;並從Intel® 伺服器系統 S9200WK的 BIOS 修訂版 22.01.0097 開始。對於這些產品,建議透過 BIOS 設定公用程式啟用進階記憶體測試 (AMT) 和封裝修複後 (PPR) 功能,以執行記憶體健康情況的完整檢查。有關詳細步驟,請參閱搭載 Intel® 62X 晶片組的 Intel® 伺服器產品的記憶體更換指南和進階記憶體測試 白皮書中的第 5 章。
筆記 | 改錯碼 (ECC) 錯誤是自我修正的。根據記憶體的可靠性可用性服務性 (RAS) 配置,集成記憶體控制器 (IMC) 可能會使受影響的 DIMM 離線。 |
對於不同的 Intel 伺服器平臺,其事件定義存在一些差異,請參閱適用于您的伺服器平臺的系統事件日誌故障排除指南 | |
Intel 建議您下載並更新系統 BIOS,至適用于您伺服器平臺 的最新可用版本 。 | |
如果該系統是 Nutanix* 企業雲的 Intel® 資料中心模組,請造訪 Nutanix* 生命週期管理器頁面。如需硬體和韌體相容性清單, 請造訪 Nutanix* 硬體與韌體相容性頁面。 |
相關主題 |
搭載 Intel® 62X 晶片組的 Intel® 伺服器產品的記憶體更換指南與進階記憶體測試 – 白皮書 |
ECC 記憶體的角色 |
如何從 Intel® 伺服器主機板的 IERR 中復原 |
我的伺服器崩潰並顯示此錯誤: 處理器 CPU 電腦 chk |
有關固件更新和故障排除提示 |
什麼是記憶體錯誤修正碼 (ECC) 可修正錯誤事件? |
SDLA 工具 如何計算 ECC 錯誤數 |