Intel® 伺服器主機板可糾正/無法糾正的 ECC 記憶體錯誤的基本診斷

文件

疑難排解

000024007

2023 年 12 月 21 日

注意 有關本文中所述的故障排除支援,請參閱您的伺服器平臺的技術 產品規格

我看到什麼?

記憶體模組的可更正和/或不可更正錯誤更正代碼 (ECC) 事件。例如:

毫米 級 ECC 感應器 SMI 處理器警告 記憶體:1,DIMM:D0 記憶體等級:1。 - 可 修正的 ECC / 其他可修正的記憶體錯誤 - 已斷言。

什麼是記憶體錯誤修正碼 (ECC) 可修正錯誤事件?

ECC 可修正錯誤表示給定雙列直插式記憶體模組 (DIMM) 在給定時間範圍內的閾值溢出。


如何修正:

記憶體資料錯誤記錄為可糾正或不可糾正。根據您遇到的錯誤類型, 請參閱 以下說明:

error types

筆記
  • 如果沒有災難性問題(紫屏死機(PSOD)或意外重新開機),並且可糾正的 ECC 錯誤(包括自我調整雙設備資料更正 (ADDDC) 錯誤)對於每個 DIMM 位置每 24 小時少於 10 個事件(在閾值限制內),則建議 監視 伺服器是否再次出現觸發該事件的每個 DIMM 位置的 ECC 錯誤。
  • 如果出現災難性問題(紫屏死機(PSOD)或意外重新開機),並且每個DIMM位置的可糾正ECC錯誤(包括自我調整雙重裝置資料校正(ADDDC)錯誤)每24小時少於10個事件,建議按照以下步驟重新拔插每個DIMM位置:
    1. 關閉 系統電源並 拔下 交流電源線。
    2. 確定 要重新拔插的DIMM位置。請參閱您的伺服器平臺 的技術產品規格, 以識別 DIMM 位置。
    3. 重新拔插已識別的DIMM。
    4. 插入 交流電源線並 重新開啟系統電源
    5. 觀察 24 小時內是否有任何 ECC 錯誤再次發生。
    6. 如果 ECC 錯誤仍然存在且與重新插座相同的 DIM 位置相同,則生成SEL和調試日誌並將其發送到 Intel Customer Support
  • BIOS 和韌體堆疊中引入了進階記憶體測試 (AMT) 功能,從適用于 Intel® 伺服器系統 S2600BP、S2600WF 和 S2600ST的 BIOS 修訂版 02.01.0014 開始;並從Intel® 伺服器系統 S9200WK的 BIOS 修訂版 22.01.0097 開始。對於這些產品,建議透過 BIOS 設定公用程式啟用進階記憶體測試 (AMT) 和封裝修複後 (PPR) 功能,以執行記憶體健康情況的完整檢查。有關詳細步驟,請參閱搭載 Intel® 62X 晶片組的 Intel® 伺服器產品的記憶體更換指南和進階記憶體測試 白皮書中的第 5 章。

筆記

改錯碼 (ECC) 錯誤是自我修正的。根據記憶體的可靠性可用性服務性 (RAS) 配置,集成記憶體控制器 (IMC) 可能會使受影響的 DIMM 離線。

對於不同的 Intel 伺服器平臺,其事件定義存在一些差異,請參閱適用于您的伺服器平臺的系統事件日誌故障排除指南

Intel 建議您下載並更新系統 BIOS,至適用于您伺服器平臺 的最新可用版本

如果該系統是 Nutanix* 企業雲的 Intel® 資料中心模組,請造訪 Nutanix* 生命週期管理器頁面。如需硬體和韌體相容性清單, 請造訪 Nutanix* 硬體與韌體相容性頁面

相關主題
搭載 Intel® 62X 晶片組的 Intel® 伺服器產品的記憶體更換指南與進階記憶體測試 – 白皮書
ECC 記憶體的角色
如何從 Intel® 伺服器主機板的 IERR 中復原
我的伺服器崩潰並顯示此錯誤: 處理器 CPU 電腦 chk
有關固件更新和故障排除提示
什麼是記憶體錯誤修正碼 (ECC) 可修正錯誤事件?
SDLA 工具 如何計算 ECC 錯誤數