精通資料科學工作流程
這些專門設計的工作站結合大記憶體容量、連接多部裝置的多個擴充插槽,以及為滿足 Python 資料科學家和您這類資料科學家設計的精選 CPU。
資料科學工作站:威力強大
資料科學家多半時間都以 CPU 密集型 Python 程式庫與演算法處理中大型資料集,多數工作站因而不堪重負。
原因在於工作站結構可能太過強調模型訓練,但是過於忽略記憶體密集資料轉換。
在嘗試載入及探索資料時避免記憶體錯誤。Pandas 函數需要的記憶體超過機器或雲端執行個體可用記憶體時,這種經驗司空見慣。
NumPy/SciPy 運算速度比上一代快
線性代數是數字與資料科學的基礎。NumPy 與 SciPy 提供的數值運算工具,讓資料科學家能處理數值分析與函數,以及各種機器學習模型與數學公式。iBench 這個評測基準測試的是 NumPy 與 SciPy 常用演算法線性代數的壓力指令,例如 dot、det、inv、lu、qr 與 svd。效能量測單位為秒(越低越好)。相較於第 3 代 Xeon-W3275,第 4 代 Xeon-W3495X 在最新 iBench 測試的執行速度快了 25% 至 75%。1
讓資料科學如虎添翼
我們設計的 Intel 技術資料科學工作站,讓資料密集型 AI 與機器學習工作流速迅速、流暢且反應迅速。這些工作站的雙插槽系統與配合工作負載的 CPU,記憶體高達 8TB,可以執行記憶體的中至大型資料集,大幅縮短 AI 開發中最耗時工作所需要的時間。
建議使用 Intel 技術的資料科學工作站
Intel 技術的資料科學工作站分為行動、主流與專業這三種平台,提供各式各樣的 CPU、記憶體容量以及 PCIe 擴充槽。
適用於 32GB 至 64GB 資料集的資料科學行動平台
卓越的行動 AI 開發與資料視覺化效能。
- 有多達 24 核 (8P+16E) 的 Intel Core HX 系列。
- 所有平台都適用的 128GB DDR5 DRAM。
- 建議使用的 SKU:
- i9-13950HX(24 核心)
- i7-13850HX(20 核心)
適用於 64GB 至 512GB 資料集的資料科學主流平台
預先處理及分析中型資料集的 CP 值優異。
- 有多達 24 核心不鎖頻的 Intel Xeon W-2400 處理器。
- 高達 2TB 的 DDR5 RIDMM。
- 建議使用的 SKU:
- W7-2495X(24 核心)
- W5-2465X(16 核心)
適用於雙插槽平台高達 8TB DDR5 的資料科學專業平台
操控大型資料集、機器學習與資料分析的最大效能。
- 有多達 56 核心的 Intel Xeon W-3400 處理器。
- W-3400 系列有高達 4TB DDR5 RIDMM,雙插槽 Xeon SP 第 4 代平台有高達 8TB DDR5。
- 單一插槽平台建議使用的 SKU:
- W9-3475X(36 核心)
- W7-3455(24 核心)
- W5-3425X(16 核心)
- 雙插槽平台建議使用的 SKU:
- 6448Y(32 核心)
- 6442Y(24 核心)
- 6444Y(16 核心)
搭配 Intel® oneAPI AI Analytics Toolkit 執行速度更快
我們為 Intel 架構將 Python 生態系統最受歡迎的工具最佳化,並且與 Intel oneAPI AI Analytics Toolkit 搭售,減輕您建置資料科學環境時的負擔,並大幅提升這些工具的效能。這些插入式最佳化現成可用,幾乎不需要修改編碼,工作效率更高。
常見問題集
選擇資料科學工作站時,必須考量兩個主要因素:您最常用哪些工具與技術,以及資料集的大小。
就資料科學架構而言,核心數越多,未必等於效能更高。超過 18 核心時,NumPy、SciPy 與 scikit-learn 的效能提升幅度有限。另一方面,HEAVY.AI(前身為 OmniSci)則可充分利用所有核心。
所有 Intel 技術資料科學工作站皆搭載 Intel® Core™、Intel® Xeon® W 與 Intel® Xeon® 可擴充處理器,在真實世界測試處理資訊科學工作負載的表現卓越。所有工作站皆提供同系列處理器最佳效能,因此記憶體容量成了最重要的選擇。
資料科學架構使得記憶體容量需求激增二至三倍。若要獲得基本的記憶體需求,請檢視您平常的資料集,然後乘以三倍。如果小於 512 GB 就夠用,桌上型電腦能讓您獲得優異的效能。如果資料集往往超過 500 GB,那麼不妨選擇記憶體超過 1.5 TB 的直立式電腦。
GPU 加速器在深度學習模型訓練與大規模深度學習推論方面大放異彩。然而,若是大量資料科學工作(資料準備、分析與傳統的機器學習),這些 GPU 將會閒置,因為適用於資料科學的 Python 程式庫多半以原生方式在 CPU 執行。您確實需要顯示卡才能驅動顯示器,但是不需要 GPU 裝置。
除非使用專用 VM 或裸機伺服器,否則雲端無法締造最佳效能。雲端執行個體雖然以單一節點的方式顯示,但是在後端的分散程度極高。您的工作負載與資料會分散到多個位置的多部伺服器。處理和記憶體因而延遲,使得執行時間表現變差。此外,透過遠端桌上型電腦處理大型資料集與圖形,並不是理想的體驗。
在單一電腦本機處理工作負載與資料,不僅效能更優異,工作體驗也更為順暢,反應速度也更快。
您雖然可以在雲端執行,但是在儲存裝置、記憶體與 CPU 之間移轉資料將耗費大量時間。如果您是專業人士,升級為 Intel® 資料科學筆記型電腦或中階桌上型電腦,皆可節省時間。我們特地測試搭載 Intel® Core™ 的資料科學筆記型電腦,並且明確規範規格,為學生、入門者和 AI 製造商提供了經濟實惠的選項,協助他們以開放原始碼 AI 工具開發及實驗。
您可以使用 Intel 最佳化的程式庫與發行版,在標準電腦加速執行 Python 資料科學工具。免費的 Intel AI Kit 內一應俱全。
注意事項與免責聲明
估計依據為使用 Intel 驗證平台,在 NumPy/SciPy 比較 Intel Xeon w9-3495X 與 Intel® Xeon® W-3275 得出的量測結果 – Inv, N=25000
配置詳細資訊請參閱 intel.com/performanceindex。結果可能會有所落差。
效能結果係依配置中所示日期的測試為準,且可能無法反映所有公開可用的安全性更新。請參閱設定檔配置的詳細資訊支援。如要進一步瞭解,請造訪 intel.com/PerformanceIndex。
Intel® Distribution of Modin 是 Pandas、scikit-learn 與 TensorFlow 實現加速的推手。如需詳細資料,請參閱 intel.com/content/www/tw/zh/developer/articles/technical/code-changes-boost-pandas-scikit-learn-tensorflow.html#gs.mdyh9o。
© Intel Corporation. Intel、Intel 圖誌和其它 Intel 標誌是 Intel 公司或其子公司的商標。其他名稱和品牌可能屬於其他擁有者的財產。