Intel® Data Center Diagnostic Tool Intel® Xeon®處理器

文件

維護與效能

000058107

2021 年 11 月 18 日

介紹

Intel® Data Center Diagnostic Tool是一種診斷軟體工具,可在您的資料中心平臺上執行:

  • 驗證Intel® Xeon®處理器中所有核心的功能。
  • 作為一般系統維護計畫的一部分使用。

資料中心的可靠性與可用性高,需要合適的工具和維護的承諾。Intel 認為,使用這類維護工具進行初始部署和定期測試是業界最佳的做法,有助於確保獲得最佳的系統體驗。

    注意
    • 現代運算基礎架構對處理能力的需求不斷增加,加上企業對服務品質與高可用性的期望(以及服務層級協定 (SLA) 的保證。這些期望強調需要強大的軟體工具,有助於預測、識別和減少可能危及服務品質或運作時間的意外系統故障。閱讀 IDC 的一篇論文 ,內容涵蓋包括Intel® Data Center Diagnostic Tool在內的診斷工具的需求。

    系統需求

    Intel Data Center Diagnostic Tool是 Linux* 應用程式,可在目前的許多 Linux 發行版本次上安裝並執行。此工具沒有 Windows* 版本。

    如需最佳涵蓋範圍,請在伺服器的根系統中執行應用程式。可以在容器或虛擬機器內執行,但請注意某些功能可能已停用。

    支援的處理器:

    • 第 3 代 Intel® Xeon® 可擴充處理器(原Ice Lake與Cooper Lake)
    • 第 2 代 Intel® Xeon® 可擴充處理器(原Cascade Lake)
    • 第 1 代 Intel® Xeon® 可擴充處理器(原 Skylake)
    • Intel® Xeon®處理器 E5 v4 系列(原 Broadwell)
    • Intel® Xeon®處理器 E7 v4 系列(原 Broadwell)
    注意
    • 對開發者而言:Intel 啟動了開放式資料中心診斷專案,該專案開啟了 Intel 的資料中心診斷架構,並提供特定測試。這能為開發人員提供一致的測試開發框架,邀請開放原始碼社群的創造力,透過開發獨特的測試螢幕和其他創新解決方案來強化雲端機隊管理。如需更多資訊,以及存取此架構與測試

    安裝

    筆記
    • 安裝中包含 的 /usr/share/doc/dcdiag/README.rst 檔案中,有其他詳細資訊可供選擇。
    • 我們建議使用以下區段中的步驟連結到存放庫,確保您獲得最新版本的Intel® Data Center Diagnostic Tool。然而,如果您需要可下載的二進位檔案,請使用RPM 檔案DEB 檔案

     

    Debian*/Ubuntu*

    若要在 Debian* 型發行版本面上安裝Intel® Data Center Diagnostic Tool軟體套件,請新增Intel software封裝存放庫並安裝適當的套件。

    在複製+貼到您的主控台之前,您可能想要執行 sudo ls 並輸入密碼,以防止 命令被解答 密碼提示所消耗:

    設定金鑰以驗證封裝的簽名

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    設定存放庫

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    安裝套件

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    若要在 Fedora 的配送版面上安裝Intel Data Center Diagnostic Tool軟體套件,請新增Intel software封裝存放庫並安裝套件。

    您第一次安裝 YUM 或 DNF 時,會提示您接受簽名金鑰。確認指紋如下,然後接受:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    在複製+貼到您的主控台之前,您可能想要執行 sudo ls 並輸入密碼,以防止 命令被解答 密碼提示所消耗:

    安裝存放庫檔案

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    安裝套件

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    安裝存放庫檔案

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    安裝套件

    sudo zypper install dcdiag

    您將會收到警告,表示 回應.xml 未簽署。回復是繼續。您將獲得另一個機會來驗證封裝裹的簽名。確認指紋如下,然後接受:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    如何測試Intel Xeon處理器

    安裝後,Intel Data Center Diagnostic Tool會自動啟用背景執行。您可以透過下列命令確認這是成功的:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    如果偵測到任何錯誤,工具會將錯誤記錄到系統日誌。此工具也可以使用 --查詢 參數,查詢背景掃描中是否偵測到任何錯誤。

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    此工具也可以在前景中手動執行,透過在 Linux 命令提示執行:

    # dcdiag

    手動測試執行約 45 分鐘,CPU 使用率高。

    診斷完成後,系統會退回下列訊息之一:

    • 測試已成功完成。未偵測到任何問題。
       
    • 測試已成功完成。發生了一或多個機器檢查錯誤。請檢查系統日誌。
       
    • 此工具版本不支援此處理器。

      檢查系統的處理器型號與版本。如果Intel Data Center Diagnostic Tool未偵測到支援的處理器的生產版本,則會出現此訊息。此工具不支援工程樣品。

      尋找 識別處理器的 協助。
       
    • 已完成測試。結果沒有定論,因為微碼版本過時。

      最新版本的微碼可解決已知問題。請更新。微碼更新通常由您的 Linux 配送供應商提供,以及各種元件的安全性修正和其他韌體更新。如果您的系統未啟用這些更新,我們建議您啟用這些更新。微碼由每個開機的 Linux 核心自動載入,可在執行時間以下列命令作為根:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • 已完成測試。由於系統超過溫度限制,結果沒有定論

      這可能是由於系統出現各種問題,無法為 CPU 提供足夠的散熱,以在所需的溫度限制範圍內運作。我們建議您檢查您的系統,以確保所需的冷卻正常運作。這可能包括風扇故障、不正確的氣流,或其他一些環境問題。
       
    • 已完成測試。結果沒有定論,發生了一次或多個機器檢查錯誤。

      檢查系統日誌。
       
    • 測試失敗。如需支援,請聯絡您的系統製造商或處理器供應商。

      如果測試結果顯示故障,請檢查伺服器節點的處理器是否仍在保固期內:

      • 如果您有盒裝Intel® Xeon®處理器仍在 3 年保固期內,請聯絡 Intel 客戶支援 尋求協助。
      • 如果您有託盤處理器,請聯絡您的系統或處理器供應商或購買地點,以檢查處理器是否仍在保固期內。
        注意匣式處理器直接銷售給系統製造商或 Intel 授權代理商。除非終端使用者預先安裝Intel® 資料中心模塊(Intel® DCB)伺服器系統,否則 Intel 不會對託盤處理器提供直接保固。除Intel DCB系統外,託盤處理器的保固是自供應商或購買處理器的地方,或是預先安裝處理器的系統。Intel 建議向Intel 授權代理商、Intel 認可 供應商和轉銷商購買Intel®產品
      • 請注意,Intel 沒有保固期外更換計畫。
         
    • 測試失敗。

      測試完成後,在包含 /sys/devices/system/cpu/cpuXX 的 實體處理器上偵測到錯誤。

      如需支援,請聯絡您的系統製造商或處理器供應商。

    • 測試失敗。

      測試無法確定哪一種實體處理器導致故障。

      如需支援,請聯絡您的系統製造商或處理器供應商。
       

    版本歷程記錄

    日期版本描述
    2021 年 7 月 7 日540初始版本