什麼是資料分析?

現在,我們創造資料的速度比以往都快,但是您有充分利用您收集的資料嗎?

對資料有更深入的了解是建立成功的組織的關鍵。資料分析是一種過程。過程中,原始資料轉化為可據以行動的知識。Intel® 技術會在資料管線的每個階段發揮作用,讓組織可以更容易地收集和分析資料,滿足幾乎所有目的。

對於各種企業和組織來說,能否能將資料轉化為可據以行動的智慧可能是成功或失敗的關鍵。如果要將資料的價值最大化,就需要使用資料分析:這個過程會分析原始資料以獲取結果。

雖然幾乎所有的組織都會分析一些資料,現代分析能讓他們獲得更多知識和深入見解,超越過去的水平。您的公司朝資訊導向、分析驅動的企業文化邁進了多少?接下來又該怎麼走呢?

一切都從資料管線開始。

了解資料管線

良好的資料分析方法需要經過一段演進過程才能建立,且會需要投入時間和承諾。有意採取下一步驟的組織必須了解道資料管線,以及資料在管線中前進時所會經歷的生命週期。

  • 擷取:資料收集
    資料管線的第一個階段是擷取。這個階段會從不同來源收集資料,並將資料移入儲存資料的系統。資料可能是從連續的串流收集,或是透過一系列獨立的事件收集。

    對於大多數未結構化的資料(IDC 估計約占 80% 至 90%)1 ,擷取既是資料生命週期的開始,也是生命週期的結束。這類資訊(又稱為「暗資料」)擷取之後不會被分析或使用,對組織不會產生任何影響。

    如今,進階資料分析的一大趨勢就是出現在擷取階段。在這些情況下,串流資料的即時分析會與擷取過程同時發生。這就是所謂的邊緣分析。這種分析需要高運算效能、低消電。邊緣分析往往會涉及物聯網裝置和感應器,兩者會從不同裝置收集資訊,包括工廠機器、城市街燈、農業設備和其他連線裝置

  • 準備:資料處理
    資料管線的下一階段會將資料加以準備,並將資訊儲存至使用者和應用程式可以存取的系統。為了將資料品質最大化,資料必須進行清理並轉化成可以輕易存取和查詢的資訊形式。

    通常,資訊會經過處理,然後儲存至資料庫。不同類型的資料庫有不同的功能,用於了解和分析不同格式的資料,並達成不同目的。SQL* 關聯式資料庫管理系統(如 SAP HANA* 或 Oracle DB*)通常處理結構化資料集。這可能包括財務資訊、認證驗證或訂單追蹤。未結構化的資料工作負載和即時分析通常會使用 Cassandra 和 HBase 等 NoSQL* 資料庫。

    要這個資料管線階段最佳化,需要運算和記憶體效能和資料管理,好加快查詢速度。它也需要高度可擴充性來應付大量的資料。資料可以根據緊急程度和有用程度將資料進行分層,確保最關鍵的資料能以最快的速度存取。

    Intel® 技術驅動了現今許多儲存裝置和記憶體密集的資料中心使用案例。靠著 Intel® Optane™ 固態硬碟,Alibaba Cloud* 可以為每個 POLARDB 執行個體提供 100 TB 的儲存容量。

  • 分析:資料建模
    資料管線的下一階段中,會分析儲存的資料,並建立模型演算法。資料可能會在端對端分析平台(如 SAP、Oracle 或 SAS)進行分析,或是透過 Apache Spark* 等工具進行大規模處理。

    加速這個階段並降低成此階段的本非常關鍵,且能帶來競爭優勢。程式庫和工具組可以縮短開發時間並降低成本。同時,硬體和軟體最佳化能降低伺服器和資料中心的成本,並改善反應時間。

    記憶體內分析等技術可以提升資料分析能力並讓分析方面的投資變得更符合成本效益。透過 Intel,Evonik 等化學公司重啟 SAP HANA *資料表格的速度提升達 17 倍。2

  • 行動:決策
    資料經過擷取、準備和分析後,就可以據以行動。資料視覺化及報告能傳達分析結果。

    傳統上,必須由資料科學家或分析人員對資料進行解釋,才能將分析結果轉為可以採取更多行動的商業智慧。然而,企業開始根據分析,利用 AI 來將行動自動化-例如,派遣維修團隊或改變房間的溫度。

如您想要更深入了解資料管線,以及組織如何能改善其分析能力,請閱讀我們的電子書《從資料到深入見解:將您的資料管線最大化》

您的公司朝資訊導向、分析驅動的企業文化邁進了多少?接下來又該怎麼走呢?

四種資料分析類型

資料分析可以分為四種基本類型:描述性分析、診斷性分析、預測性分析和指示性分析。這些不同類型的分析其實是成熟分析的不同步驟,每個步驟會逐漸縮短資料管線中的「分析」到「行動」的距離。

  • 描述性分析
    描述性分析是用於將歷史資料總結和視覺化。換言之,這種分析會告訴組織已經發生的事。
    描述性分析是最簡單的分析類型,甚至可以是一張分析去年銷售數字的基本圖表。描述性分析是一個堅固的基礎,而所有的分析工作都要建立在它之上。許多企業仍然主要使用這種分析形式,包括儀表板、資料視覺化和報告工具。

  • 診斷性分析
    隨著分析工作日漸成熟,組織開始向其歷史資料提出更困難的問題。診斷性分析不僅會檢視過去發生的事情,還會探究事情發生的原因。要進行診斷性分析,分析師必須能夠進行詳細的查詢,以識別趨勢和因果關係。
    診斷性分析可能可以發掘不同變量之間的新關係:例如,一間體育服裝公司在中西部的銷售數字可能與晴天有關。診斷性分析將資料與規律對照,並試圖解釋異常或離群的資料。

  • 預測性分析
    前兩種分析都會檢視歷史資料,而預測性分析與指引性分析則會展望未來。預測性分析會依據從歷史資料中取得的趨勢和統計模型,來預測可能的結果。
    建立預測性分析策略時需要經過建模和驗證,以創造最佳的模擬。如此一來,企業決策者才能獲得最好的結果。預測性分析常會使用機器學習,它們會透過大規模資料集訓練模型,藉此來形成更聰明的預測。

  • 指示性分析
    另一種進階分析是指示性分析。指示性分析會根據預測性分析推薦最好的解決方案。到了這個階段,企業正式完成向資料導向決策轉型的過程。
    指示性分析非常依賴機器學習分析和神經網路。這些工作負載需要高效能運算和記憶體才能執行。這類分析會需要由另外三種分析打下的堅固基礎。只有具備非常成熟的分析策略的公司才能進行這種分析,且公司必須願意為此投入大量資源。

資料分析使用案例

Intel® 技術正在改變現代企業組織進行分析的方式。Intel 使用案例遍布多個產業和全球,而 Intel 致力於推進分析領域的發展,並協助企業提升效能合成本效益。

  • 製造
    對於汽車製造商來說,品質控制不僅能省錢,還能救人一命。在 Audi 的自動化工廠裡,分析師透過抽樣來確保焊接品質。透過邊緣上的預測性分析(採用 Intel 的 Industrial Edge Insights 軟體打造),製造商可以自動檢查每輛車上的所有焊接點,並根據焊接完成時的感應器資訊來預測焊接問題。

  • 保健
    訓練 AI 閱讀 X 光片能幫助病患和醫療機構,加快診斷速度。研究組織 SURF 利用搭載 Intel® Xeon® 可擴充處理器的神經網絡,將訓練時間從 1 個月縮短至 6 個小時,同時還提升了準確性。

  • 電信
    智慧型手機和行動網路創造了大量的行動數據,其規模前所未見。為了提升客戶體驗,電信公司 Bharati Airtel 利用 Intel® Xeon® 處理器和 Intel® SSD 部署了進階網路分析,藉此提升了偵測和糾正網路問題的速度。

Intel® 分析技術

Intel 擁有廣泛的技術和合作夥伴價值鏈體系,能協助企業打造未來導向的解決方案,並推動了全球各地的企業的進階分析。從資料中心到邊緣,Intel 在分析價值鏈體系的每一個端點都能發揮作用,提供最大的價值和效能。

常見問答集

資料分析是一種資訊轉化過程,原始資料會被轉化成企業可以據以行動的深入見解。

大數據分析會使用大規模的資料集,進而發現新的關係,並更深入地了解大量資訊。

進階分析並不是一種或是一套特定的技術。它是一種使用案例和解決方案的分類,這類型的使用案例和解決方案會使用進階技術,如機器學習、擴增分析和神經網路。

資料分析是用來產生商業智慧,藉此幫助組織了解過去、預測未來並規劃行動方針。

資料管線的四個階段分別是擷取、準備、分析和行動。

描述性和診斷性分析都關注過去。描述性分析會告訴我們發生了什麼事,而診斷性分析則會調查事情發生的原因

描述性分析會回顧過去,告訴我們已經發生的事情。這種分析是其他種分析的基礎。指示性分析會根據現有資料和預測性演算法做出行動建議。

預測性與指示性分析都能產生與未來相關的深入見解。預測性分析會產生對未來事件的預測,而指示性分析則根據這些預測推薦相應的行動方針。

預測性分析是用於改善對未來的預測。預測性分析能夠在維修需求出現之前就先行偵測,或是評估經濟情況最可能會對未來銷售預測造成的影響。

相關內容

進一步了解適用於分析的 Intel® 技術。

資料分析

了解分析如何為組織帶來可靠且可據以行動的深入見解,以及如何改善您的分析策略

充分發揮分析的威力

進階資料分析

企業要變得更具智慧,要從進階分析開始。了解如何在利用 Intel® 技術在資料導向的市場中脫穎而出。

推動更智慧的分析策略

機器學習分析

利用機器學習和人工智慧來加強分析工作,以更快的速度獲得更深入的見解。

釋放您的潛力

預測性分析

駕馭您的資料,做出可以據以行動的預測並獲得競爭優勢。

預測性分析讓您看得更遠

注意事項與免責聲明
Intel® 技術可能需要搭配啟用的硬體、軟體或服務啟動。// 沒有產品或元件能提供絕對的安全性。// 您的成本和成果可能有所落差。// Intel 並不控制或審核第三方的資料。您應該參考其他來源以評估準確性。

產品與效能資訊

1〈What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses〉,Forbes,2019 年 6 月,forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e
2 截至 2018 年 5 月 30 日,針對 SAP HANA* 標準應用基準第 2 版 SAP BW版的 SAP HANA* 模擬工作負載。效能測試中使用的軟體與工作負載可能僅針對 Intel® 微處理器進行最佳化。SYSmark* 與 MobileMark* 此類效能測試,使用特定電腦系統、零組件、軟體、作業與功能進行測量。這些因素若有任何變更,可能會導致不同的結果。考慮購買時,為了協助您充分評估,您應該參考其他資訊及效能測試,包括該產品結合其它產品使用時的效能表現。如需更完整的資訊,請造訪 www.intel.com.tw/benchmarks。效能結果係依配置中所示日期的測試為準,且可能無法反映所有公開可用的安全性更新。請參閱設定檔配置的詳細資訊支援。沒有產品或元件能提供絕對的安全性。傳統 DRAM 的基準配置:具有 8 個 Intel®Xeon®Platinum 8176M 處理器(28 核心、165W、2.1 GHz)的 Lenovo ThinkSystem SR950* 伺服器。總記憶體包括 48 個 16GB TruDDR4 2,666 MHz RDIMM 和 5 個 ThinkSystem 2.5 吋 PM1633a,3.84 TB 容量 SAS 12GB 熱插拔固態硬碟 (SSD),用於 SAP HANA* 儲存。作業系統是 SUSE Linux Enterprise Server 12* SP3 並使用具有 6 TB 資料集的 SAP HANA* 2.0 SPS 03。表格預載 10 次反覆運算後完成所有資料的平均啟動時間:50分鐘。結合 DRAM 與 Intel® Optane™ DC 持久型記憶體的全新配置: 總記憶體包括 24 個 32 GB DDR4 2666 MHz 和 24 個 128 GB AEP ES2,以及 1 個 1x Intel® SSD DC S3710 系列 800 GB、3 個 Intel® SSD DC P4600 系列 2.0 TB、3 個 Intel® SSD DC 系列 S4600 1.9 TB 容量。BIOS 版本 WW33’18。作業系統是 SUSE* Linux* 4 Enterprise Server 15 並使用具有 1.3TB 資料集的 SAP HANA* 2.0 SPS 03(套用 SUSE 的特定 PTF 核心)。經過最佳化的表格預先載入平均啟動時間 (提升 17 倍)。