考慮語言 AI 開發和部署的替代方案
企業、ISV 和其他技術組織正在尋覓使 AI 創新且可實現的方法。語言 AI 模型的開發和部署傳統上仰賴大型語言模型(LLM),由配備獨立 GPU 或其他專用硬體的伺服器和工作站支援。然而,實現這些類型的解決方案所需的努力和基礎架構往往讓許多組織望而卻步。
因此,務實的創新者選擇了基於 SLM 的解決方案。SLM 是輕量且目標明確的模型,可更有效率地實現聊天機器人等特定領域且基於語言的應用程式。為了實現更高的成本效益,這些 SLM 創新者正在探索如何在純 CPU 的架構上執行 SLM 工作負載,無論是部署在雲端、內部資料中心還是邊緣。
為了協助您深入瞭解如何更有效率地啟用特定領域語言 AI,這就一同來瞧瞧是什麼讓 SLM 和 AI 就緒的 CPU(如 Intel® Xeon® 處理器)如此強大。
使用 SLM 簡化語言 AI 解決方案
對於首重效率、隱私和成本效益的企業而言,SLM 為實現 AI 功能提供了絕佳的途徑。相較於範圍廣且通用的 LLM,SLM 是專為高效執行特定任務而設計的精巧 AI 模型。因此,它們在 AI 管道的每個階段所需的運算能力和資料較少。熱門 SLM 的例子包括 Mistral 7B 和 Llama 3.2 系列。
效率和成本效益
一般而言,SLM 是透過蒸餾和剪枝等技術從 LLM 衍生而來的。由於 SLM 涉及的資料較少,因此可以頻繁接受訓練和重新訓練,而不會造成重大的電力或雲端資源成本。這種靈活性可協助您微調及完善模型的效能,而無需花費太多預算或時間。
安全性與隱私權益處
此外,SLM 還提供隱私和安全性的益處。由於訓練資料需求較小且使用範圍較小,SLM 不太可能擷取和保留敏感資訊。較小型的資料集和更簡單的架構把解釋結果及辨識偏差或幻覺變得更容易。由於 SLM 需要的資源較少,因此網路安全威脅的攻擊面也較小。
特定領域的 AI 益處
由於 SLM 是建立在更小、目標更明確的資料集之上,因此非常適合用於特定領域的應用。對為特定產業、領域或公司打造的資料集進行訓練可協助 SLM 深入且細緻入微地瞭解,降低錯誤輸出的風險。更明確的焦點也有助於任務完成率和準確性等計量指標的最佳化。此外,SLM 較低的資料和訓練要求可轉化為更快的週轉時間和加速的投資報酬率。
使用 CPU 上的 SLM 最大化效率
SLM 和 AI 就緒的 CPU 可相互配合,為現實的語言 AI 實施提供輕量且具有成本效益的解決方案,且不犧牲效能。針對小型語言模型使用 CPU,而不是 GPU 或其他專用硬體,可將成本、複雜性和資源消耗降至最低。
例如,搭載最新 Intel® Xeon® 處理器(第 4 代及更新的處理器)的伺服器,可讓使用者以經濟實惠的價格在僅有 CPU 的架構上執行 SLM,並以低延遲的私密方式執行。由於其靈活性和效能,將這些處理器用於小型語言模型,為在內部部署中啟用 SLM 應用程式提供了一條特別有吸引力的途徑,在面臨特別嚴格的資料安全需求時,這可能是首選。
Intel® Xeon® 處理器中的整合式加速器
Intel® Xeon® 4、5 和 6 處理器也提供整合式 Intel® Advanced Matrix Extensions(Intel® AMX)加速器,結合更高的記憶體頻寬,提升了 SLM 的運算效率。模型規模較小也代表完整的應用程式可在搭載 Intel® Xeon® 處理器的單一節點上執行,大幅降低成本並提供出色的延遲與輸送量。
Intel® AMX 改善了深度學習(DL)訓練和推理的效能,使其非常適合自然語言處理等工作負載。您可以對 AI 功能進行編碼,以利用 Intel® AMX 指令集的優勢,或對非 AI 功能進行編碼,以使用處理器指令集架構。
另外值得一提的是,最新的 Intel® Xeon® 處理器提供了超越 Intel® AMX 的一系列內建最佳化和加速引擎,支援安全與網路等多種使用案例。
Intel® Xeon® 處理器上的 Llama 3.2 3B
評測基準結果顯示,在第 5 代 Intel® Xeon® 處理器和 Intel® Xeon® 6 P-core 處理器上執行 Llama 3.2 3B,輸入 1,024 個權杖,輸出 128 個權杖,可實現卓越的輸送量,同時保持下一個權杖不到 50 毫秒(P99)的延遲。1
Intel® Xeon® 處理器上的 Microsoft Phi-3
Phi-3 系列的 SLM,為建構生成式 AI(GenAI)應用程式提供了強大且具有成本效益的選項。Phi-3-medium 4K 和 128K 變體的評測基準顯示,Intel® Xeon® 處理器是大型語言模型推理部署的高效選項。2
評估您的 SLM 和 CPU 商機
在 CPU 上執行的 SLM 提供了一條可行、具有成本效益、準確且安全的途徑,使語言 AI 和特定領域的模型更加實際,可供您的組織實施。
此外,在 CPU 架構(包括 Intel® Xeon® 處理器)上執行 SLM 的途徑可能比您預期的更直接。
您可以採取以下四個步驟,開始評估您在 CPU 選項上的 SLM:
- 與基礎架構團隊一起評估您目前的投資。許多組織擁有搭載 Intel Xeon 處理器的伺服器,且透過移轉至搭載 Intel AMX 的 Intel Xeon 6 處理器來更新現有基礎架構,可為 SLM 帶來巨大的總體擁有成本優勢。
- 請向您的雲端供應商查詢。任何主要的雲端供應商均可提供搭載 Intel® AMX 加速器的 Intel® Xeon® 處理器執行個體,讓您隨時加以利用。
- 與您的技術合作夥伴討論各種選項。Intel® 合作夥伴隨時準備協助您針對從邊緣到雲端的小型語言模型,充分利用我們包括 Intel® Xeon® 處理器在內的技術。
- 瞭解將現有的 AI 應用程式移植到中央處理器架構有多易如反掌。Intel 提供了一系列開發工具(包括 OpenVINO™ 工具組,)讓您只需編寫一次程式碼,即可隨處部署。