數(shù)據庫仍然是數(shù)據的基礎存儲庫,但AI驅動的數(shù)據治理工具的生態(tài)系統(tǒng)遍布各地,包括來自初創(chuàng)公司的產品,這些初創(chuàng)公司可能缺乏持久力或深厚的數(shù)據庫專業(yè)知識。隨著時間的推移,越來越多的治理能力可能會與數(shù)據庫軟件產品和云數(shù)據庫服務集成。
使用AI自動化數(shù)據治理會立即帶來回報。企業(yè)數(shù)據治理越好,其MLOps(機器學習運營)人員就越能利用這些數(shù)據構建AI驅動的應用程序。更廣泛地說,向數(shù)據治理中添加AI對任何企業(yè)的數(shù)據分析、合規(guī)性和數(shù)據質量工作都有積極影響。
以下是AI如何使治理流程現(xiàn)代化,以及AI增強工具如何確保AI/ML應用程序和一般數(shù)據處理成功的方式。
數(shù)據目錄
你知道你的數(shù)據在哪里嗎?為了讓治理工作有效,企業(yè)需要對所有相關數(shù)據存儲進行全面的清查,并了解其內容。由于云數(shù)據存儲的無序激增,再加上用于識別運營趨勢和異常的半結構化日志,識別、訪問和分類企業(yè)數(shù)據的任務變得越來越艱巨。數(shù)據目錄軟件將所有這些存儲庫映射出來。
AI可以幫助企業(yè)數(shù)據目錄的每個階段,從自動發(fā)現(xiàn)企業(yè)相關的每個數(shù)據存儲開始。目錄工具的范圍各不相同,但有些工具使用AI來企業(yè)訪問控制策略和/或在企業(yè)的數(shù)據結構中啟用自然語言搜索。AI驅動的數(shù)據目錄大大減少了與分類數(shù)據資產相關的手工勞動,并揭示了數(shù)據譜系,顯示數(shù)據的來源及其變化。
元數(shù)據管理
有效的元數(shù)據管理,即管理描述公司數(shù)據的信息,是成功治理的基礎。AI目錄工具可以識別元數(shù)據,以正確分類數(shù)據資產,但元數(shù)據管理對健康的數(shù)據資產也至關重要。因此,從數(shù)據集成軟件到數(shù)據可觀察性平臺的一系列產品現(xiàn)在都提供元數(shù)據管理功能。
AI注入的元數(shù)據管理工具緩解了手動數(shù)據分類的乏味工作,并幫助調和元數(shù)據描述中的差異。過去,企業(yè)一直認為元數(shù)據是相對靜態(tài)的,但如今,AI工具可以持續(xù)監(jiān)控和收集關于數(shù)據存儲、使用和流動的動態(tài)元數(shù)據。除了其他好處外,深層次的元數(shù)據可用于AI推薦最佳存儲平臺,甚至建議潛在的數(shù)據集成管道。
數(shù)據質量
AI對數(shù)據治理的最大影響體現(xiàn)在數(shù)據質量上,數(shù)據質量有六個維度:準確性、完整性、一致性、唯一性、及時性和有效性。顯然,缺乏這些質量的數(shù)據會對操作造成災難性后果。更不用說,數(shù)據科學家和分析師通常在使用數(shù)據之前就深陷清洗數(shù)據的困境。
AI/ML 工具可以自動推斷缺失值、規(guī)范化數(shù)據格式、標記數(shù)據異常等功能。盡管人類仍然需要做出判斷(例如兩個名字相同的客戶是同一個人還是不同人),但總體上節(jié)省的時間可以是巨大的。隨著 AI 工具從大量數(shù)據中學習模式,它們的推薦、關聯(lián)和校正能力將不斷提升,這些基線可以用于實時監(jiān)控數(shù)據質量。
數(shù)據建模
構建數(shù)據庫或整個數(shù)據架構從收集和分析數(shù)據需求開始,并開發(fā)適應這些需求的邏輯和物理模型。幾種產品提供使用 AI 讓數(shù)據架構師和工程師輕松生成數(shù)據模型的可視化表示。
如今,在許多企業(yè)中,數(shù)據建模正在被顛覆,以服務于 AI/ML 應用。許多 AI 數(shù)據工具提供自動特征工程,從數(shù)據集中提取關鍵數(shù)據特征,為 AI 訓練做準備。結合 AutoML(自動化機器學習),這種活動反過來支持不同類型的模型選擇:選擇合適的 ML 模型來驅動應用程序或支持預測分析。如果數(shù)據不足以適當訓練模型,AI 驅動的數(shù)據模擬工具可以從現(xiàn)有數(shù)據存儲中提取數(shù)據并生成類似真實數(shù)據的合成數(shù)據。
數(shù)據政策和生命周期管理
每個企業(yè)都需要圍繞數(shù)據處理建立政策,這些政策由聯(lián)邦、州、行業(yè)和國際法規(guī)以及內部業(yè)務規(guī)則指導。在大型企業(yè)中,數(shù)據治理委員會制定這些政策,并在一個活文件中指定如何遵循這些政策,該文件隨著法規(guī)和程序的變化而演變。GenAI 的自然語言能力可以生成該文檔的初稿,并使隨后的更改更容易處理。
通過分析數(shù)據使用模式、法規(guī)要求和內部工作流程,AI 可以幫助企業(yè)定義和執(zhí)行數(shù)據保留政策,并自動識別已達到使用壽命的數(shù)據。AI 甚至可以啟動歸檔或刪除過程。除了減少風險和確保合規(guī)性,自動數(shù)據歸檔還可以釋放存儲空間并降低存儲成本。
數(shù)據可用性
AI 驅動的災難恢復系統(tǒng)可以通過預測潛在的故障場景并建立預防措施來幫助企業(yè)制定可靠的恢復策略,以最大限度地減少停機時間和數(shù)據丟失。注入 AI 的備份系統(tǒng)可以確保備份的完整性,并在災難發(fā)生時自動啟動恢復程序,以恢復丟失或損壞的數(shù)據。
注入 AI 的存儲管理系統(tǒng)可以復制和分發(fā)數(shù)據到多個存儲位置,以確保高可用性和低延遲。同時,AI 驅動的預測分析可以從傳感器、設備日志和歷史維護記錄中攝取數(shù)據,以預測潛在的故障或停機。預測性維護是防止數(shù)據可用性喪失的最佳措施。
仍然需要人類
AI 對數(shù)據治理有許多易于實現(xiàn)的任務。許多與治理相關的任務,從數(shù)據發(fā)現(xiàn)到數(shù)據清理再到政策管理,都充滿了 AI 可以輕松處理的重復手動任務——并且完成的準確性比人類更高,這是一個巨大的勝利,尤其是在 MLOps 尋求清晰、企業(yè)良好的數(shù)據存儲以構建和訓練 AI 應用程序時。
但請記住,AI 并不具備任何有意義的智能。即使是解決輕微的數(shù)據差異,也可能需要廣泛經驗所帶來的背景知識,這是只有人類才能獲得和理解的。沒有人會把創(chuàng)建企業(yè)數(shù)據架構的任務交給機器。是的,AI 已經從數(shù)據治理中消除了大量手動勞動,但它不會替你思考。
企業(yè)網D1net(r5u5c.cn):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運營19個IT行業(yè)公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業(yè)網D1Net編譯,轉載需在文章開頭注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。