如何從 Intel® 伺服器主機板的內部錯誤 (IERR) 復原

文件

疑難排解

000006043

2023 年 07 月 17 日

我所看到的是什麼?

IERR 是處理器報告的災難性錯誤,但一般是由處理器核心外的裝置(例如記憶體、 PCIe)引起的。

  • 處理器執行已中斷,通常是因為處理器外發生事件。
  • 此問題通常伴隨著 CATERR 事件,可以交叉引用以取得其他資訊。

如何修正:

依下列步驟進行:

  1. 檢閱錯誤修正代碼 (ECC)事件的系統事件記錄 (SEL)。有瑕疵的記憶體可能會觸發 IERR。
  2. 檢閱 任何 PCIe 活動的 SEL。PCIe 裝置故障可能會觸發 IERR。
  3. 確保 作業系統 (OS) 驅動程式是最新的伺服器,以及任何最近新增的硬體裝置。過時的作業系統驅動程式可觸發 IERR。
  4. 檢查 任何機器檢查架構 (MCA) 專案中的作業系統記錄,這些專案可能表示可能觸發 IERR 的硬體故障。
  5. 確認 您擁有伺服器系統 的最新 BIOS
  6. 前往 基礎板管理控制器 Web 主控台>組態>記憶體配置> PPR 類型,並將 PPR 設定 為硬碟。
  7. 如果日誌確認有特定的記憶體模組可能導致問題,請繼續重新插上記憶體棒,並監視伺服器 24 小時

相關主題
我的伺服器發生碰撞並顯示此錯誤:處理器 CPU 機器 Chk
如需韌體更新與疑難排解提示
Intel® 伺服器主機板的系統事件記錄疑難排解指南