Intel® Xeon®處理器的Intel® Data Center Diagnostic Tool

文件

維護與效能

000058107

2024 年 04 月 22 日

產品概述

Intel® Data Center Diagnostic Tool是驗證 CPU 核心健康情況的工具。

當前版本是 603,於 2024 年 3 月 22 日發布。

環境

超大規模雲端供應商和企業數據中心的重中之重始終是提供最佳的正常運行時間和可靠性。從歷史上看,該行業的表現相當不錯,通常可實現 >99.999% 的正常運行時間。然而,現代運算基礎架構讓使用者對服務品質 (QoS) 和高可用性的期望與日俱增。這些期望強調了對強大軟體工具的需求,這些工具可以幫助識別並最大限度地減少可能影響 QoS 或正常運行時間的意外系統故障。

Intel 建立並使用先進的元件級測試與驗證工具,可大幅減少可能導致系統錯誤的產品瑕疵。我們的超大規模客戶及其供應商使用這些相同的 Intel 開發的軟體工具,在其系統的整個生命週期內維持機群健康。他們認識到,隨著時間的推移,密切監控系統資產可以改善整體機隊恢復能力和客戶 QoS。

Intel 深知許多不同的客戶可以從相同的功能中受益,而Intel® Data Center Diagnostic Tool是該軟體的簡化版本,用於管理內部部署環境。

Intel® 資料中心診斷工具

Intel® Data Center Diagnostic Tool (Intel® DCDiag) 專為 IT 管理人員設計,以定期維護其數據中心設備。Intel® DCDiag 可用於任何規模的數據中心,協助確保最高水準的持續品質和可用性。此外,DCDiag 可用於前景(~45 分鐘運行時間)或後台模式的定期佇列篩選,並可識別有故障的微處理器。定期進行系統維護有助於主動識別潛在問題,並使系統管理員能夠更換這些微處理器。

Intel® DCDiag 是一套測試,可有條不紊地檢查大部分 SoC 功能,包括每個微處理器核心的功能。通過驗證每個DCDIAG計算是否正確,而不僅僅是確認測試正確完成執行,DCDIAG能夠檢測多種類型的故障,包括表現為無聲數據錯誤的故障。

Intel® DCDiag 透過多重測試檢查處理器運作結果是否正確,來找出故障。

  • 運行多個代碼迴圈,或在所有內核上運行相同的代碼,並檢查結果是否相同。
  • 檢查高速緩存、核心對核心的通訊,以及大多數處理器指令。

隨機數據集用於測試指令和核心。報告是處理器上易於理解的通過/失敗。未通過測試的處理器應退回系統供應商或分銷商進行更換。

How Does DCDIAG Work?

測試結果

DCDiag 測試結果設計為易於理解。診斷完成後,系統將返回以下消息之一:

  • 測試已成功完成。未檢測到任何問題。
  • 測試已成功完成。發生一個或多個電腦檢查錯誤。請檢查系統紀錄。
  • 此版本的工具不支援此處理器。
    • 檢查 系統的處理器型號和版本。如果Intel Data Center Diagnostic Tool未檢測到受支援處理器的生產版本,則會出現此消息。此工具不支援工程樣品。

    • 尋找 識別 處理器的説明。

  • 測試完成。由於微碼版本過時,結果尚無定論。
    • 最新版本的微碼解決了已知問題。Intel 建議更新至最新版本。

  • 測試失敗。如需支援,請聯絡您的系統製造商或處理器廠商。
    • 如果測試結果顯示失敗, 請檢查 伺服器節點的處理器是否仍在保固期內。

    • 如果您的盒裝Intel® Xeon®處理器仍享有 3 年保固, 請聯絡 Intel Customer Support 尋求協助。

    • 如果您有托盤處理器, 請聯絡 您的系統或處理器廠商或購買地點以尋求協助。

系統要求

Intel® Data Center Diagnostic Tool是可用於 Linux* 和 Windows* 操作系統的應用程式。此工具可以在許多當前的 Linux* 和 Windows* 發行版上安裝和執行,請參閱 在 Linux* 和 Windows* 上安裝。

從版本 558 開始,此工具可使用提供的 MSI 安裝程式安裝在 Windows* 上,並在 Microsoft 目前支援的任何版本的 Windows 10*、Windows Server 2016* 或更高版本上執行。請查閱 Windows* Server 版本資訊,以確定目前可用和支援哪些版本的 Windows* 伺服器系統。

為了獲得最佳覆蓋率,請在伺服器的根系統中運行應用程式。可以在容器或虛擬機中運行它,但請注意某些功能可能被禁用。

支援的處理器:

  • 第 5 代 Intel® Xeon® 可擴充處理器(原名 Emerald Rapids)
  • 第 4 代 Intel® Xeon® 可擴充處理器(原Sapphire Rapids)
  • Intel® Xeon® CPU Max 系列(原 Sapphire Rapids HBM)
  • 第 3 代 Intel® Xeon® 可擴充處理器(原名 Ice Lake 和 Cooper Lake)
  • 第 2 代 Intel® Xeon® 可擴充處理器(原Cascade Lake)
  • 第 1 代Intel® Xeon®可擴充處理器(原 Skylake)
  • Intel® Xeon® 處理器 E5 v4 系列(原 Broadwell)
  • Intel® Xeon® 處理器 E7 v4 系列(原 Broadwell)

Intel® Xeon® 處理器上的 Windows Intel® Data Center Diagnostic Tool

Intel® Xeon® 處理器上的 Linux Intel® Data Center Diagnostic Tool

如何使用Intel® Data Center Diagnostic Tool測試 Intel® Xeon® 處理器

注意:

針對開發人員:Intel 啟動了開放數據中心診斷專案,該項目開放了 Intel 的數據中心診斷框架並提供精選測試。這為開發人員提供了一個一致的測試開發框架,邀請開源社區的創造力,通過開發獨特的測試螢幕和其他創新解決方案來增強雲機群管理。有關更多資訊並訪問此框架和測試。

版本歷史

日期 版本 描述
2021年7月7日 540 初始版本
8月16, 2022 549 錯誤修正
9月20, 2022 549 命令已更改以啟用該工具並驗證啟用
1月10, 2023 550 包括第 4 代 Intel® Xeon® 處理器
1月20, 2023 576 版本 576 發佈
12月14, 2023 594 版本 594 更新
2024 年 3 月 22 日 603 版本 603 發佈

*其他名稱與品牌可能業經宣告為他人之財產。

相關主題
Intel® Xeon®支援中心網站
Intel® 處理器的保固指南
適用於 Windows* 的 Intel® Xeon® 處理器的Intel® Data Center Diagnostic Tool