Numenta 提供強大的推斷效能

挑戰

舉凡文字分類、情感分析、ChatGPT 等自然語言處理（NLP）應用程式皆需要高輸送量、低延遲技術。BERT 和 GPT 等轉換器模型已是神經科學領域的基石，因為這些轉換器模型可以處理複雜的文字輸入，然後提供準確的結果。但鑑於這些大型語言模型持續增長、變複雜，執行模型的成本也隨之增加，在實際執行環境部署轉換器是日益困難。

為滿足現今複雜 NLP 應用程式嚴苛的輸送量和延遲需求，客戶常採用 GPU（圖形處理器）執行深度學習推斷的轉換器，因為 GPU 高度並行，並可快速有效執行大規模的運算。不過，GPU 可能需要更高的成本，或添加其他硬體。換句話說，IT 部門要多加維護。客戶需要更簡單的解決方案，不必投入龐大的成本，即可提供優異的效能優勢。

「這些重大成果讓 CPU 成為執行轉換器的絕佳選擇。如果客戶採用效能影響甚鉅的 AI 應用程式，他們可以使用 Numenta 和第 4 代 Intel Xeon 可擴充處理器，以輕量、經濟實惠的方法部署即時應用程式。」 Numenta 執行長 Subutai Ahmad

Numenta 解決方案

基於二十年的神經科學研究，及 AI 技術的重大進展，Numenta 建立功能強大的 AI 平台，讓客戶可以 10 倍甚至 100 倍地改善深度學習推斷的效能。¹ ² ³

Numenta 與 Intel 合作採用第 4 代 Intel® Xeon® 可擴充處理器可用的全新 Intel® Advanced Matrix Extensions（Intel® AMX），搭配 Numenta 專有的神經科學解決方案，大幅加速轉換器網路。

採用 CPU 的 AI 運算新紀元

ChatGPT 向世人展現轉換器的能力後，大型深度學習模型的需求持續增長。當我們展望眾多驚人的可能時，Numenta 的成果卻暗示採用最佳化模型與 CPU 的深度學習新紀元到來。因為利用實惠、高效能的 Numenta 與 Intel® CPU，客戶最精密、高度複雜的 NLP 應用程式，可取得高輸送量和低延遲的推論結果。³

Numentas 採用第 4 代 Intel Xeon 可擴充處理器，大幅加速轉換器網路，實現多項優勢：

避免深度學習推斷採用 GPU 時的成本和複雜
轉換器模型容許更靈活、可擴充的部署
開拓 AI 與 NLP 應用程式新的可能，而且最終在實際執行環境部署轉換器模型

更優異的效能：Numenta 搭載 Intel® CPU 與 NVIDIA GPU 的區別

充分利用 Intel AMX 後，Numenta 發覺 BERT-Large 推斷簡短文字順序和批次大小的輸送量比 NVIDIA A100 GPU 提升 35 倍¹ ² ⁴ 即時感應器的輸入資料會持續變更，而批次大小 1 在這種環境最為靈活，所以最適合低延遲應用程式。

GPU 採用較大的批次大小時通常效能更佳，但即使 NVIDIA A100 採用批次大小 8，Numenta 的效能仍優異 9 倍。² ⁴

圖 1：觀察對照 2 插槽第 4 代 Intel® Xeon® 可擴充處理器執行 Numenta 最佳化 BERT-Large 模型時的推斷輸送量，與 NVIDIA A100 Tensor Core GPU 執行標準 BERT-Large 模型時的推斷輸送量。

演算法與硬體進階的協作，為利用 CPU 的 BERT-Large 推斷提供無比的效能提升。基於這種大幅加速的效能，CPU 不只是 GPU 另一個可行的選擇，更是在實際執行環境中執行轉換器的絕佳選擇。

渦輪增壓 CPU 推斷輸送量

Numenta 搭配 Intel® 技術產生加乘效應。Numenta 分析每個元件在兩種不同情境的輸送量和延遲優缺點，查明個別元件的影響。

輸送量最佳化時，Numenta 每秒可執行 5,100 次以上的查詢，輸送量比目前這代 AMD Milan CPU 實作提升 70 倍。³ 但 Numenta 在提升中有多少貢獻？在以下情境中，不搭配 Numenta 並從第 3 代 Intel Xeon 可擴充處理器轉為第 4 代 Intel Xeon 可擴充處理器，速度提升 6.5 倍。³ Numenta 額外提升 9 倍的輸送量。³

圖 2：觀察對照最新第 4 代 Intel® Xeon® 可擴充處理器執行 Numenta 最佳化 BERT-Large 模型輸送量最佳化時提升的推斷輸送量，與其他不同處理器架構執行標準 BERT-Large 模型時提升的推斷輸送量。

在即時應用程式有明確的延遲要求時，目標變更為遵守最低延遲要求並達成峰值輸送量。為了示範，Numenta 設定 10 毫秒延遲限制，因為一般認為這是即時應用程式關鍵的臨界值。

如下圖所示，目標設為 10 毫秒延遲時，搭載第 4 代 Intel Xeon 可擴充處理器的 Numenta 達成的輸送量，是目前這代 AMD Milan CPU 實作的 123 倍。³ 在這種情境中，Numenta 的貢獻更是顯而易見。不搭配 Numenta 並從第 3 代 Intel Xeon 可擴充處理器轉為第 4 代 Intel Xeon 可擴充處理器後，Intel 速度約提升 3 倍。³ 搭配第 4 代 Intel Xeon 處理器加速後，Numenta 的速度額外提升 19 倍。³

圖 3：觀察對照最新第 4 代 Intel® Xeon® 可擴充處理器以 10 毫秒延遲上限，執行 Numenta 最佳化 BERT-Large 模型提升的推斷輸送量，與其他不同處理器架構執行標準 BERT-Large 模型時提升的推斷輸送量。

「Numenta 與 Intel 目前合力透過 Intel Xeon Max 系列 CPU 與第 4 代 Intel Xeon 可擴充處理器，嘗試大幅提升 Numenta AI 解決方案的效能。我們很榮幸能攜手合作解除 AI 應用程式（例如對話式 AI 和大型文件處理）以往的頻寬限制或延遲限制，大幅加速效能。」Intel AI 與 HPC 應用層工程的副總裁暨總經理 Scott Clark

Numenta 為什麼選擇 Intel？

Numenta 的 AI 技術大幅加速依賴分析大量文件的 NLP 應用程式。¹ 例如，轉換器應用於文件理解時，序列長度要長才能整合文件完整的內容。這些長序列需要高資料傳輸速率，所以外接晶片頻寬的方式是限制因素。Numenta 利用全新的 Intel® Xeon® Max 系列 CPU 證明這系列可以最佳化 BERT-Large 模型、處理大型文字文件，在長序列長度為 512 時，輸送量的速度空前提升 20 倍。¹ 對 Nomenta 的客戶而言，這種創新無疑是嶄新的技術，首次實現經濟實惠的擴充。

關於 Numenta

電腦產業先驅 Jeff Hawkins 和 Donna Dubinsky 於 2005 年創立的 Numenta 以二十年的研究成果，取得神經科學的專有技術。Numenta 利用本身神經科學研究的基本見解，開發最先進的 AI 平台，在廣泛的 AI 使用案例中實現天翻地覆的效能提升。

Numenta 與多間全球百大公司合作，在 AI 全面的領域應用旗下平台技術（例如模型開發或部署），以期最終實現全新的應用程式類別。

進一步瞭解

新聞稿：Numenta 採用 Intel® Xeon® 處理器家族後，BERT 轉換器的推斷效能提升 123 倍
部落格：透過 Numenta 與 Intel，BERT 變換器有了新的效能標準
申請示範：http://www.numenta.com/request-a-demo/

下載 PDF ›

選擇您的語言

使用 Intel.com 搜尋功能

快速連結

最近的搜尋

進階搜尋

僅在以下條件搜尋：

Numenta 提供強大的推斷效能

概覽：

挑戰

Numenta 解決方案

採用 CPU 的 AI 運算新紀元

更優異的效能：Numenta 搭載 Intel® CPU 與 NVIDIA GPU 的區別

渦輪增壓 CPU 推斷輸送量

Numenta 為什麼選擇 Intel？

關於 Numenta

進一步瞭解

進一步探索相關產品與解決方案

客戶故事和個案研究

資料中心工作負載

資料中心深入分析

產品與效能資訊

使用 Intel.com 搜尋功能

快速連結

最近的搜尋

進階搜尋

僅在以下條件搜尋：

Numenta 提供強大的推斷效能

概覽：

挑戰

Numenta 解決方案

採用 CPU 的 AI 運算新紀元

更優異的效能：Numenta 搭載 Intel® CPU 與 NVIDIA GPU 的區別

渦輪增壓 CPU 推斷輸送量

Numenta 為什麼選擇 Intel？

關於 Numenta

進一步瞭解

進一步探索相關產品與解決方案

Intel® Xeon® 可擴充處理器

Intel® Xeon® CPU Max 系列

Intel® Advanced Matrix Extensions (Intel® AMX)

客戶故事和個案研究

資料中心工作負載

資料中心深入分析

產品與效能資訊