資料分析是什麼?
知識就是力量,但資訊的價值取決於您能如何運用它。現今,資料分析領域正運用機器學習(ML)與深度學習(DL)AI 等 AI 技術,將結構化、半結構化與非結構化資料轉化為商業智慧(BI)。
最終,使用 AI 增強的資料分析,預期成果是協助企業領導者做出符合組織目標的正確決策。
資料分析近年來有所演變
資料量呈指數級成長(從 GB 到 PB 乃至於更大的規模),持續對企業構成挑戰,即使是擁有穩健分析基礎架構的企業也很吃力。資料來源的數量與類型不斷增加,同時導致用於收集與處理資料的系統更為分散(稱為資料孤島)。為了跟上技術步伐,企業需要更快分析資料,資料分析師也必須持續精進技能,否則恐會錯失寶貴的深入解析。採用 ML、AI 與強大的運算,從這些大型資料集中收集、分析,並擷取深入解析。
AI 對資料分析的影響
AI 協助將傳統資料分析工作流程的關鍵步驟自動化,不但使進度更快,且每個步驟的成果也更令人滿意。
由於 AI 可大規模高效運作,因此相較於人類作業員獨立操作,它也可以協助分析師更深入地解析見解,以及辨識資料中更複雜的模式。AI 分析的潛力價值無窮,但代價是需要更多的開發時間,才能建置及訓練用於自動化分析的 AI 模型,並找到具備必要技能的 AI 建置者以確保成功。
資料管道
AI 支援的資料分析是透過稱為資料管道的方法所建置。雖然流程可能因企業而異,但資料分析解決方案將透過大致相同的核心資料管道階段來運作:
- 資料輸入、探索與預先處理
- 模型選擇與訓練
- 生產部署
資料輸入、預先處理與探索
首先,我們從多種不同來源收集不同類型的資料,例如與客戶互動、社群媒體貼文,以及包括音訊與視訊在內的多媒體。這些資料可能是結構化或非結構化。結構化資料是適用於預先定義架構的狹義資訊,例如試算表中的數值資料。非結構化資料可能包括任何內容,包括便利貼上的潦草筆跡以及音訊檔案。
收集所有資料後,接下來的關鍵步驟就是預先處理。此步驟包括由 AI 或人類資料科學家準備資料,以便進行分析與建模。這可透過資料擷取、載入、轉換(ELT)流程,讓資料擁有者根據需要結構化資料;或是透過資料擷取、轉換、載入(ETL)流程,讓資料在使用前先行清理。
將資料整理成一致的格式後,就開始進行資料探索。在此階段,資料科學家會嘗試透過統計資料、概率計算,以及圖表與繪圖等資料視覺化,瞭解資料並開發全面檢視畫面。為了揭示興趣模式與興趣點,各種分析工具(包括 AI)可協助資料科學家辨識不同特徵之間的關係,例如資料集的結構、是否存在異常值,以及資料價值的分佈。
模型選擇與訓練
在此階段,資料科學家仰賴 AI 模型或演算法,透過描述性分析來理解資料,或是透過預測性建模來計算未來的結果。預測性建模是一種數學方法,用於建立統計模型,根據輸入測試資料來預測未來行為。
資料科學家可能會使用一或多種數學方法(稱為演算法),獲得盡可能準確的模型來回答手頭的問題。演算法範例包括回歸分析、分群、決策樹/規則、時間序列/序列分析、K 近鄰,以及隨機森林。最終,資料科學家將選出他們認為可利用運算容量產生最佳成果的模型與演算法。
選定演算法後,資料科學家將繼續進行訓練。訓練本質上是自動調整演算法中的各種參數,然後將這些參數用於測試資料,以進行預測。這項調整的目的,是在所謂的監督機器學習中盡量準確地獲取已知結果的資料。另一種稱為非監督機器學習的技術則仰賴演算法,獨立分組及理解資料。
為了加速模型選擇與調整,資料科學家可採用現成模型(又稱基礎模型)作為起點。這些模型可根據特定使用案例的需求自訂及微調。整體而言,微調基礎模型比從頭開始建置更簡單也更快,因此是簡化及加速部署路徑的有效方式。
生產部署
在資料管道的最後階段(即生產部署階段),資料科學家會對新資料使用經過訓練的演算法,以獲得新的成果。在此,經過訓練的模型可讓使用者或其他系統使用其分類與預測。模型處理新的資料後,資料科學家仍可選擇最佳化模型,確保輸出內容盡可能地準確,並能生成深入解析。
AI 如何改變資料管道?
AI 的引進並未改變傳統的資料分析管道,但會對準備需求產生影響。也就是說,需要為 ML 與 DL 演算法準備好資料需求,將處理大量資料複雜而漫長的流程自動化。AI 為資料分析帶來各種優勢,包括速度、一致性,以及有能力處理人類專家無法應對的極端資料複雜性和資料量。
四種資料分析類型
四種類型的資料分析首先採用傳統方法,著重於透過資料瞭解目前與歷史的現實。這些稱為描述性與診斷分析。進階分析方法包括預測性與規範性分析,力求超越記錄的現實來預測未來事件和趨勢,還能根據業務目標制定可能的行動方針。
- 描述性分析: 過去發生過什麼?
- 診斷分析: 過去為什麼會發生這種事?
- 預測性分析: 未來會發生什麼事?
- 規範性分析: 最佳前進路徑是什麼?
隨著 AI 的影響與採用率持續成長,資料分析領域也日新月異。AI 正在實現新型進階資料分析,例如:
- 認知分析: 利用語義技術與 ML、DL 與 AI 演算法,將類似人類的智慧應用於資料分析。
- AI 支援的分析: 將 ML 演算法、自然語言處理(NLP)和其他 AI 應用程式與分析工具結合,從複雜的資料中擷取更深入的解析和理解。AI 支援的分析技術也可用於自動化分析任務,實現更快的工作流程,以及讓組織中更多人能夠存取資料。
- 即時分析: 在傳入資料到達時立即分析,以便立即提供深入解析,供即時決策使用。許多使用案例都採用即時分析,例如詐騙偵測、交叉銷售機會、變動定價、異常偵測,以及感應器資料管理。
- 記憶體內分析: 使用記憶體而非磁碟上的資料,降低延遲,加速分析更龐大的資料集。將資料儲存在記憶體,對即時分析也很重要。
進階分析解決方案與巨量資料
「巨量資料」一詞用來說明非常大的資料集,通常包括超過 1 TB 的資訊。巨量資料屬於非結構化;高容量;高速(即以大量資料即時湧入);以及高度多樣性,表示它包含多種資料格式與類型。由於巨量資料的規模與特性,需要 ML、AI 以及強大的運算,才能在資料管道中移動。
進階分析解決方案加速處理來源更多樣的大量非結構化資料,包括邊緣 IoT 裝置與感應器。企業部署進階分析解決方案,應對這些更具挑戰性的巨量資料工作負載,例如詐騙偵測、情緒分析,以及工業設備的預測性維護等使用案例。
資料分析使用案例
資料分析幾乎可以應用於全球各行各業。運用資料來瞭解微觀或宏觀規模的情況與事件,讓每家企業都有機會在他們所創造的資料中發掘價值。常見的資料分析方式包括:
- 客戶分析: 透過市場分群和預測性分析,運用客戶行為資料來協助制定關鍵業務決策。
- 需求預測: 使用歷史資料的預測分析,估計及預測客戶未來對產品或服務的需求。最終,這有助於企業做出更明智的供應決策。
- 異常偵測: 辨識與大多數資料差異顯著,且不符合定義正常之典型行為概念的罕見項目、事件或觀察結果。
- 人員流動分析: 將人員流動以資料的形式顯示,協助揭示行為背後的隱藏模式。
- 時間序列分析: 讓企業瞭解他們所觀察到的資料,進而打造預測、監控,甚至意見回饋與前饋控制模型。
- 社群媒體分析: 從社群媒體管道收集的資料中尋找意義,以支援業務決策,並根據社群媒體的決策,衡量行動績效。
- 客戶推薦: 提供符合每位客戶在所有商務接觸點的品味與偏好的個人化推薦。
組織行號將這些資料分析使用案例應用在各行各業,例如:
- 零售業: 零售商可利用資料分析進行需求預測、實體店面的動線分析,以及透過電子郵件、店內廣告與社群媒體提供個人化客戶推薦。
- 製造業: 製造商可透過在生產線上進行電腦視覺檢查,將資料分析用於客戶分析以及異常偵測。
- 電信業: 通訊服務供應商可利用資料分析來偵測網路流量異常,以及時間序列分析,來預測網路擁塞。
- 醫學研究: 研究人員可利用異常偵測,提升醫學影像或患者資料分析的準確性,辨識出可能未遭察覺的健康風險因素。
對於希望確保競爭力並推動創新的組織來說,採用 AI 支援的資料分析不可或缺。主動使用資料的企業會比這方面落後的企業更容易取得成功。