Numenta 提供強大的推斷效能

Numenta 與 Intel 合作大幅加速他們神經科學解決方案的轉換器網路。

概覽:

  • 電腦產業先驅 Jeff Hawkins 和 Donna Dubinsky 於 2005 年創立的 Numenta 以二十年的研究成果,取得神經科學的專有技術。

  • 基於二十年的神經科學研究,及 AI 技術的重大進展,Numenta 建立功能強大的 AI 平台,讓客戶可以改善深度學習推斷的效能。

author-image

作者

挑戰

舉凡文字分類、情感分析、ChatGPT 等自然語言處理(NLP)應用程式皆需要高輸送量、低延遲技術。BERT 和 GPT 等轉換器模型已是神經科學領域的基石,因為這些轉換器模型可以處理複雜的文字輸入,然後提供準確的結果。但鑑於這些大型語言模型持續增長、變複雜,執行模型的成本也隨之增加,在實際執行環境部署轉換器是日益困難。

為滿足現今複雜 NLP 應用程式嚴苛的輸送量和延遲需求,客戶常採用 GPU(圖形處理器)執行深度學習推斷的轉換器,因為 GPU 高度並行,並可快速有效執行大規模的運算。不過,GPU 可能需要更高的成本,或添加其他硬體。換句話說,IT 部門要多加維護。客戶需要更簡單的解決方案,不必投入龐大的成本,即可提供優異的效能優勢。

「這些重大成果讓 CPU 成為執行轉換器的絕佳選擇。如果客戶採用效能影響甚鉅的 AI 應用程式,他們可以使用 Numenta 和第 4 代 Intel Xeon 可擴充處理器,以輕量、經濟實惠的方法部署即時應用程式。」 Numenta 執行長 Subutai Ahmad

Numenta 解決方案

基於二十年的神經科學研究,及 AI 技術的重大進展,Numenta 建立功能強大的 AI 平台,讓客戶可以 10 倍甚至 100 倍地改善深度學習推斷的效能。1 2 3

Numenta 與 Intel 合作採用第 4 代 Intel® Xeon® 可擴充處理器可用的全新 Intel® Advanced Matrix Extensions(Intel® AMX),搭配 Numenta 專有的神經科學解決方案,大幅加速轉換器網路。

採用 CPU 的 AI 運算新紀元

ChatGPT 向世人展現轉換器的能力後,大型深度學習模型的需求持續增長。當我們展望眾多驚人的可能時,Numenta 的成果卻暗示採用最佳化模型與 CPU 的深度學習新紀元到來。因為利用實惠、高效能的 Numenta 與 Intel® CPU,客戶最精密、高度複雜的 NLP 應用程式,可取得高輸送量和低延遲的推論結果。3

Numentas 採用第 4 代 Intel Xeon 可擴充處理器,大幅加速轉換器網路,實現多項優勢:

 

  • 避免深度學習推斷採用 GPU 時的成本和複雜
  • 轉換器模型容許更靈活、可擴充的部署
  • 開拓 AI 與 NLP 應用程式新的可能,而且最終在實際執行環境部署轉換器模型

更優異的效能:Numenta 搭載 Intel® CPU 與 NVIDIA GPU 的區別

充分利用 Intel AMX 後,Numenta 發覺 BERT-Large 推斷簡短文字順序和批次大小的輸送量比 NVIDIA A100 GPU 提升 35 倍1 2 4 即時感應器的輸入資料會持續變更,而批次大小 1 在這種環境最為靈活,所以最適合低延遲應用程式。

GPU 採用較大的批次大小時通常效能更佳,但即使 NVIDIA A100 採用批次大小 8,Numenta 的效能仍優異 9 倍。2 4

圖 1:觀察對照 2 插槽第 4 代 Intel® Xeon® 可擴充處理器執行 Numenta 最佳化 BERT-Large 模型時的推斷輸送量,與 NVIDIA A100 Tensor Core GPU 執行標準 BERT-Large 模型時的推斷輸送量。

演算法與硬體進階的協作,為利用 CPU 的 BERT-Large 推斷提供無比的效能提升。基於這種大幅加速的效能,CPU 不只是 GPU 另一個可行的選擇,更是在實際執行環境中執行轉換器的絕佳選擇。

渦輪增壓 CPU 推斷輸送量

Numenta 搭配 Intel® 技術產生加乘效應。Numenta 分析每個元件在兩種不同情境的輸送量和延遲優缺點,查明個別元件的影響。

輸送量最佳化時,Numenta 每秒可執行 5,100 次以上的查詢,輸送量比目前這代 AMD Milan CPU 實作提升 70 倍。3 但 Numenta 在提升中有多少貢獻?在以下情境中,不搭配 Numenta 並從第 3 代 Intel Xeon 可擴充處理器轉為第 4 代 Intel Xeon 可擴充處理器,速度提升 6.5 倍。3 Numenta 額外提升 9 倍的輸送量。3

圖 2:觀察對照最新第 4 代 Intel® Xeon® 可擴充處理器執行 Numenta 最佳化 BERT-Large 模型輸送量最佳化時提升的推斷輸送量,與其他不同處理器架構執行標準 BERT-Large 模型時提升的推斷輸送量。

在即時應用程式有明確的延遲要求時,目標變更為遵守最低延遲要求並達成峰值輸送量。為了示範,Numenta 設定 10 毫秒延遲限制,因為一般認為這是即時應用程式關鍵的臨界值。

如下圖所示,目標設為 10 毫秒延遲時,搭載第 4 代 Intel Xeon 可擴充處理器的 Numenta 達成的輸送量,是目前這代 AMD Milan CPU 實作的 123 倍。3 在這種情境中,Numenta 的貢獻更是顯而易見。不搭配 Numenta 並從第 3 代 Intel Xeon 可擴充處理器轉為第 4 代 Intel Xeon 可擴充處理器後,Intel 速度約提升 3 倍。3 搭配第 4 代 Intel Xeon 處理器加速後,Numenta 的速度額外提升 19 倍。3

圖 3:觀察對照最新第 4 代 Intel® Xeon® 可擴充處理器以 10 毫秒延遲上限,執行 Numenta 最佳化 BERT-Large 模型提升的推斷輸送量,與其他不同處理器架構執行標準 BERT-Large 模型時提升的推斷輸送量。

「Numenta 與 Intel 目前合力透過 Intel Xeon Max 系列 CPU 與第 4 代 Intel Xeon 可擴充處理器,嘗試大幅提升 Numenta AI 解決方案的效能。我們很榮幸能攜手合作解除 AI 應用程式(例如對話式 AI 和大型文件處理)以往的頻寬限制或延遲限制,大幅加速效能。」Intel AI 與 HPC 應用層工程的副總裁暨總經理 Scott Clark

Numenta 為什麼選擇 Intel?

Numenta 的 AI 技術大幅加速依賴分析大量文件的 NLP 應用程式。1 例如,轉換器應用於文件理解時,序列長度要長才能整合文件完整的內容。這些長序列需要高資料傳輸速率,所以外接晶片頻寬的方式是限制因素。Numenta 利用全新的 Intel® Xeon® Max 系列 CPU 證明這系列可以最佳化 BERT-Large 模型、處理大型文字文件,在長序列長度為 512 時,輸送量的速度空前提升 20 倍。1 對 Nomenta 的客戶而言,這種創新無疑是嶄新的技術,首次實現經濟實惠的擴充。

關於 Numenta

電腦產業先驅 Jeff Hawkins 和 Donna Dubinsky 於 2005 年創立的 Numenta 以二十年的研究成果,取得神經科學的專有技術。Numenta 利用本身神經科學研究的基本見解,開發最先進的 AI 平台,在廣泛的 AI 使用案例中實現天翻地覆的效能提升。

Numenta 與多間全球百大公司合作,在 AI 全面的領域應用旗下平台技術(例如模型開發或部署),以期最終實現全新的應用程式類別。