説明找到有缺陷的記憶體模組的疑難排解內容
當記憶體模組有可疑的缺陷時,如何判斷正確的中央處理器 (CPU) 位置 (1 或 2) 和雙列直插式記憶體模組 (DIMM) 組?
按如下所示進行操作,這是基於查找導致 IErr ECC_error的 DIMM 的診斷步驟:
注意 | 確保 ipmitool 工具(請參閱 IPMI、V2.0、命令測試控管)已載入或可在該節點上運行。這將允許您檢查系統事件日誌 (這是一個二進位檔案)。 |
注意 |
通過以這種方式查看擴展清單來檢查系統事件日誌:
#sudo ipmitool sel elist |少
1c |08/24/2018 |22:51:49 |記憶體毫米式 ECC 感應器 |無法修正的 ECC |斷言
1d |08/24/2018 |22:51:49 |記憶體毫米式 ECC 感應器 |無法修正的 ECC |斷言 然後,您可以參考第一列中的十六進位 (HEX) 值來檢查系統事件日誌中的任何條目: #sudo ipmitool sel get 0x1c
SEL 記錄 ID: 001c 記錄類型 : 02 時間戳記:08/24/2018 22:51:48 產生器 ID : 0033 EvM 修訂版 : 04 感應器類型 : 記憶體 感應器編號 : 02 事件種類 : 感應器專用離散 事件方向 : 斷言事件 事件資料 (RAW): a10103 事件解釋:缺失 描述 : 無法糾正的ECC 感應器 ID:毫米式 ECC 感應器 (0x2) 實體 ID : 32.1 (記憶體裝置) 感應器類型 : 記憶體 (0x0c) |
調試事件資料 (RAW) 的日誌位置
- 在計算機中輸入該數位:
- 查看二進位 (BIN) 值,特別是最後 8 個位元組。在上圖中,查看最右邊的部分(突出顯示)。
- 將其轉換為十進位,如下表所示,最右邊的位代表 DIMM 插槽值:0=A、1=B、2=C、3=D 等。
最右邊第二個位代表 CPU 插槽。
在本例中,b0000 = CPU1。b0001 將等於 CPU2。
使用 IPMI 時,無法獲得 基板管理控制器 (BMC) 網頁圖形化使用者介面 (GUI)上顯示的詳細程度。但是,您可以通過運行下一個命令來使用 Redfish : curl -k -u <user>:<password> HTTPs://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0。
注意 |
skiptoken 是開始的地方。它通常會返回 50 條記錄,因此 skiptoken 將為 0、50、100,依此類推。在回應結束時,它會告訴您下一個 skiptoken 應該是什麼才能繼續閱讀。 |
或者,您可以使用伺服器管理員系統中執行SDPtool <ipv4> <username> <password> debuglog<filename>命令的Intel® Server Debug and Provisioning Tool (Intel® SDP Tool)。