將 DIMM 故障與INTEL® SERVER BOARD產品系列上的 DIMM 插槽故障隔離的步驟
根據 S2600WF Intel® Server Board,多台伺服器上報了多個 DIMM 的錯誤,可修正 ECC 錯誤臨界值。
即使在多次更換 DIMM 之後,ECC 錯誤仍持續存在。
如果在多次更換 DIMM 之後仍持續發生 ECC 錯誤,則需要完成測試才能將 DIMM 故障與主機板 DIMM 插槽故障隔離。
重新排列記憶體,以查看標記的 DIMM 是否仍然在其他插槽中呈現 ECC。這表示 DIMM 已損壞或受到輕微損壞。
如果在同一 DIMM 插槽上報告 ECC 錯誤,但在 DIMM 插槽上安裝了不同的 DIMM,請確認插槽中是否有可能導致連接故障的碎片/灰塵。如果沒有碎片/灰塵,可能是主機板 DIMM 插槽故障,並且需要更換 S2600WF 主機板。
如果系統有任何 DIMM 有輕微或潛在故障,會透過以下步驟偵測到。此程式可能緩慢,但可以識別特定 DIMM 元件的潛在問題。
測試步驟:
- 移除 所有 DIMM。
- 遵循 Intel® 伺服器產品技術產品規格中的DIMM 人口指南區段,僅安裝 1pc DIMM,而該 DIMM 過去未出現 ECC 錯誤。
- 以1pcs DIMM 啟動 系統 ,並執行一段時間。 檢查 是否有 任何 ECC 錯誤。
- 遵循相同的準則,並安裝過去未出現 ECC 錯誤的第 2 DIMM。
- 以2pcs DIMM 啟動 系統 ,並執行一段時間。 檢查 是否有 任何 ECC 錯誤。
- 遵循相同的準則,安裝過去未出現 ECC 錯誤的第 3 DIMM。
- 以3pcs DIMM 啟動 系統 ,並執行一段時間。 檢查 是否有 任何 ECC 錯誤。
- 遵循 相同的準則, 安裝 過去未出現 ECC 錯誤 的第 4 DIMM 。
- 以安裝 4pcs DIMM 的 系統 開始,並檢查是否有 任何 ECC 錯誤。
- 按照相同的步驟,每次再安裝一個 DIMM並啟動系統。檢查是否有任何 ECC 錯誤。
- 執行測試,直到所有良好的 DIMM 都已滿滿為止。
- 按照相同的步驟安裝報告 ECC 錯誤的DIMM並啟動系統。檢查是否有任何 ECC 錯誤。
現在,所有原始的 DIMM 插槽都應該進行人滿為患和測試。即使是具有 ECC 錯誤的原始 DIMM 插槽,也會進行人滿為患和測試。