很抱歉,此 PDF 僅提供下載格式

白皮書 IT@Intel Intel IT 最佳實務 IT 巨量資料與 創新 IT 年 月 2013 2

將 整合至 的 Apache Hadoop* Intel 巨量資料環境 執行概覽 使用定義完善的一套評估準則,將 軟體 Intel IT Intel® Distribution for Apache Hadoop 經由概念性驗證,新平台 與其他兩種 軟體進行比較。評估準則包括平台架 (Intel® Distribution) Apache Hadoop* 可讓我們執行根本原因分 構的各個層面,例如管理、操作和支援等等,以各自的價值論點。我們依照這些準則來 析以及自動化意外防治, 測試、驗證及評估,同時進行評分。 因此可將意外發生率降低 我們在規劃的初期投資中所建立的平台可 我們的評估確認使用 能比 Intel Distribution %。 30 支援結構化及多結構化的分析資料使用案 其他的軟體提供更大的優勢。 例,並透過擴充以滿足不斷增加的需求。 平台架構可與現有基礎架構緊密整合、 • 經由概念性驗證 ,新平台可讓我們 (PoC) 具備高可用性,並支援多租用戶 執行根本原因分析以及自動化意外防治, 透過簡化的設定、管理、安全性和疑難 • 因此可將意外發生率降低 。在目前的 30% 排解提供簡易的系統管理、操作及支援 經濟環境中,這代表了我們能大幅節省 IT 成本並避免不必要的開銷,同時協助我們 透過 架構的最佳化提升效能,並 • Intel® 提升員工生產力。 使用 進階加密標準指令集提供增 Intel® 強的加密功能 建立與開放原始碼社群之間的緊密關 • 係,並與開放原始碼藍圖保持一致 我們的 平台將配合其他的商業智 Hadoop 慧平台,例如具成本效益、高擴充性的 架構企業資料倉儲、記憶體式資料 Intel Assaf Araki 庫,以及自訂資料倉儲。在評估和部署期 部門巨量資料分析工程師 Intel IT 間,我們會開發幾種最佳實務來支援企業 採用新的平台。 Ajay Chandramouly 部門巨量資料產業客戶經理 Intel IT Nghia Ngo 部門巨量資料效能工程師 Intel IT Sonja Sandeen 部門巨量資料專案經理 Intel IT Darin Watson 部門巨量資料平台工程師 Intel IT Chandhu Yalla 部門巨量資料工程經理 Intel IT 將 整合至 的巨量資料環境 白皮書 IT@Intel Apache Hadoop* Intel 內容 執行概覽................................................................1 商業挑戰................................................................2 速度快,容量大的分析 已變得越來越重要...................................2 平台面 Apache Hadoop* 對各種不同的挑戰做好準備...........2 選擇 Apache Hadoop distribution 軟體 ........................................................................3 策略性目標.....................................................3 評估方法...........................................................3 評估準則 ..........................................................3 平台元件................ Intel® Distribution 5 在 的 Apache Hadoop Intel 使用案例...........................................................5 平台的設計和 Hadoop 部署最佳實務...............................................6 下一個步驟..........................................................6 結語 ........................................................................8 相關資訊................................................................8 英文字母縮寫字.............................................8 IT@INTEL 計畫透過組織內部同儕來與 IT@Intel 全世界的 專業人員連結,並分享學 IT 習到的知識、方法和策略。我們的目 標很簡單:共同分享可創造商業價值 和 競爭優勢的 最佳準則。 IT Intel IT 請立即造訪 或與您當 www.intel.com/IT 地的 代表聯繫以取得更多資訊。 Intel 商業挑戰 不斷激增的數位技術和數位儲存資料產生 了大量的資料,遠遠超過了傳統資料平台 的處理能力。使用者產生及機器產生的資 料來源包括 日誌、 無線射頻 Web RFID ( 辨識、感應器網路、社群網路、網際網 ) 路文字、安全性記錄檔以及視訊歸檔。 目前部署的商業智慧 平台並不支 Intel (BI) 援多結構化資料,且這些平台與巨量資料 分析並不相容,因此無法提供更深入的分 析,也無法進行更快、更有效的決策制 定。當我們要在企業中推動資料類型和數 量的根本性變革時,必須同時調整全盤的 規劃、策略和資料分析處理的平台。 為了解決這個問題,我們已針對 目 Intel 前使用的資料進行評估,並制訂管理這些 1 資料的策略。 為了透過各種資料與分析 需求來展現商業價值,我們已研擬了一 套因應策略來提供多個 平台,以支援 BI 具有不同特性的資料儲存與分析。這些範 例包括具成本效益、高擴充性的 架 Intel® 構企業資料倉儲、記憶體式資料庫,以及 自訂資料倉儲。我們的策略還包括針對 2 各種使用案例來選擇最適合的 平台。 BI 此一策略可針對快速成長的各種不同資 料提供預先因應措施,藉此展現策略的 價值。 速度快,容量大的分析已變得 越來越重要 傳統上,我們較著重於關聯式資料庫中的 結構化資料分析。不過現今大部分的資料 都是未結構化,且不斷透過 、網路、 Web 感應器和其他來源快速累積。快速執行高 1 如需詳細資訊,請參閱「Enabling Big Data Solutions 」, 年 月。 with Centralized Data Management 2013 1 2 如需詳細資訊,請參閱 年春季發佈的 2013 「Improving BI Analytics at Intel with Multiple Data 」。 Warehouses 容量分析的能力已變得更為重要。我們必 須充分利用較以往更為多元的資料來源, 以透過快速且周延的決策制定來維持 Intel 競爭優勢。不過,由於我們目前的關聯式 資料倉儲並非針對此類型的資料分析所設 計,因此我們會針對其他以 Not Only SQL 為基礎的 平台進行研究。這些 (NoSQL) BI 平台更能符合大列非結構化資料的即時儲 存及處理需求。 目前最頂尖且最為廣泛使用的 平 NoSQL 台是開放原始碼 專案, Apache Hadoop* 其中包括 Hadoop Distributed File System 和 這是一種非關聯性分 (HDFS*) HBase* ( 散式資料庫。其他的開放原始碼或專屬 ) 解決方案並未如 和 NoSQL Hadoop HBase 一樣已達到發展成熟的階段。 除 Hadoop 了是一種發展成熟的平台以外,它也可以 讓我們維持一個具有彈性的 生態系統 IT 以因應不斷進化的需求。 目前已有數種 解決方案可供使 Hadoop 用,包括純粹的開放原始碼以及第三方 軟體。目前,純粹開放原始碼 distribution 的 版本採用批次處理的設計,且 Hadoop 並未針對高速效能進行最佳化。因 HBase 此我們認為第三方 軟 Hadoop distribution 體最能符合我們的分析需求。 平台面對各 Apache Hadoop* 種不同的挑戰做好準備 雖然 的業務小組瞭解 解決方 Intel Hadoop 案的價值,但採用這些解決方案必須面對 某些挑戰。 大部分的 框架平台都是以開放 • Hadoop 原始碼技術為基礎所建立。開放原始 碼開發及支援的管理對於大部分的 Intel 開發社群來說都是一種全新的概念,對 於許多開發領域來說也會造成潛在的影 響,例如產品和功能管理、儲存和移轉 服務及管理。 2 www.intel.com/IT 將 整合至 的巨量資料環境 Apache Hadoop* Intel 白皮書 IT@Intel 應用程式開發人員必須開發新的技術。 • 例如,他們必須從熟悉的 語言轉變 SQL 成以 來撰寫 程式碼。 Java* MapReduce* 此外,較不具直覺性,並且與傳統循序 演算法有明顯不同的分散式演算法將需 要不同的思維方式。 巨量資料 —尤其是多結構化的巨量資 • 料—可說是一種全新的領域。此外還需 要在教育方面進行龐大的投資以及持續 不斷的技術提升,才能妥善運用不斷更 新的工具、硬體和軟體解決方案。 為了因應這些挑戰,我們已負責評估多個 軟體,並提供完全整合 Hadoop distribution 的實際執行平台。我們的工作就像是巨量 資料服務提供者,不但負責提升平台的採 用,並協助業務小組充分發揮巨量資料的 價值。 選擇 APACHE HADOOP 軟體 DISTRIBUTION 我們的策略是將 Intel® Distribution for )與 Apache Hadoop* (Intel® Distribution 其他兩種 軟體進行 Hadoop distribution 比較,然後選擇最能符合 需求的方 Intel 式,並將這種新技術與現有的架構和其 他 平台進行整合。這種方式可充分發 BI 揮每個技術部署的優點,並可讓業務小組 根據他們的特殊使用案例來使用適當的 平台。 BI 策略性目標 在評估過程中,我們將秉持下列戰略 目標: 使用運算及儲存叢集,透過具成本效益 • 但成效強大並搭載 處理器 Intel® Xeon® 系列的伺服器以提供高效能、速度 E5 快的分析,同時降低儲存成本。 使用單一儀表板,可有效降低支援、系 • 統管理的負擔 利用具備每秒 叢集光纖頻寬的 • 480 Gb 高效能網路,提升處理大型資料集及高 階安全性的效能。 透過巨量資料提供全方位的服務,將平 • 台與現有的安全性架構、資料倉儲和工 具進行緊密的整合,以增加資料利用的 速度、縮短業務單位採用時間,並且更 快速地發揮商業價值。 使用企業存取管理、以角色為基礎的安 • 全性整合及目錄服務,以簡化組態和管 理處理程序。 評估方法 首先,我們會制定出一系列的評估準則。 我們會針對各種準則指定從 到 的加權 1 5 因數,並根據每種選項的優先順序以確保 更為全面的功效。然後我們會依照這些準 則來測試、驗證及評估各個軟體,同時進 行評分。我們已確認 最能 Intel Distribution 符合我們的準則,包括排除業務小組於採 用時的障礙,並可有效降低初期成本和持 續支援方面的總持有成本 )。 (TCO 如圖 所示, 是一種全方 1 Intel Distribution 位的解決方案,其中包含 Apache Hadoop 開放原始碼專案的完整發佈,加上 、 和 資料倉儲基礎 MapReduce HDFS* Hive* 結構以及 資料流語言等相關元件。 Pig* 還支援 和 Intel Distribution Apache Mahout* 軟 Intel® Graph Builder for Apache Hadoop 體。這些解決方案元素皆已預先整合以簡 化管理及部署,並可加快進入市場的時 間,使得訓練和財務方面的投資能降到 最低。 在選擇 之後,只需要約 Intel Distribution 週的時間就能完成整個平台的設計和實 5 作。 與 Read the full 白皮書 IT@Intel Intel IT 最佳實務 IT 巨量資料與 創新 IT 年 月 2013 2.

相關影片