Microsoft Fabric目前處于公開預覽模式,并將在未來幾個月更新更多功能,這讓許多事先沒有聽取微軟公司簡報的行業(yè)專家感到驚訝。一些人保留了自己的原先判斷,直到看到它確實在實踐中發(fā)揮重要作用。有些人稱贊該平臺是一個重大進步,可以幫助微軟公司超越亞馬遜和谷歌等其他云計算提供商,至少在為大型企業(yè)提供服務方面。分析人士稱,Microsoft Fabric也將給Snowflake公司和微軟公司的親密合作伙伴Databricks公司等其他科技供應商帶來競爭壓力。
調研機構Forrester公司的分析師Noel Yuhanna說,“將所有這些功能結合在一起,微軟公司目前肯定比其他超大規(guī)模企業(yè)有一些優(yōu)勢。”
研究機構Gartner公司聲稱,甚至在宣布這一消息之前,微軟就已經成為數據和分析軟件領域的領導者。分析人士表示,微軟已經將其產品的集成和易用性提升到了一個新的水平,這可能是其競爭對手短期內難以匹敵的。
分析師稱,Microsoft Fabric提供了主導產品,其關鍵在于執(zhí)行。亞馬遜公司的AWS云服務在總收入上仍明顯領先于微軟Azure,而且這種優(yōu)勢可能還會持續(xù)一段時間。在企業(yè)分析和數據領域,微軟的云產品目前在功能的廣度方面處于領先地位。Amalgam Insights公司的分析師Hyoun Park表示,“執(zhí)行能力通常是由銷售來定義的。因此,這個數字尚未得到證實。”
Microsoft Fabric的秘方:OneLake
那么是什么讓Microsoft Fabric脫穎而出呢?據分析人士稱,這是微軟用一個名為OneLake的數據湖簡化和統(tǒng)一其數據架構的方式,該數據湖可以存儲并允許訪問來自不同來源和應用程序的各種數據。
他們表示,這種方法將在節(jié)約成本、透明度、靈活性、管理和數據質量方面為客戶帶來顯著好處。OneLake不僅被設計為微軟自己的軟件服務生成的數據的中心存儲庫,而且還被設計為來自外部來源的數據的中心存儲庫,例如第三方應用程序。它還為用戶提供一致的體驗和界面,無論數據的類型或格式如何。這聽起來似乎是一個顯而易見的想法,但對于包括微軟、亞馬遜和谷歌在內的大多數云計算提供商來說,這一想法一直難以實現。
多年來,這些科技巨頭已經收購或開發(fā)了數十種用于各種數據和分析任務的軟件工具,例如商業(yè)智能、數據科學、機器學習和實時流媒體,但他們在很大程度上以零碎的方式將這些工具拼湊在一起,而沒有創(chuàng)建一個連貫無縫的平臺。
因此,客戶必須處理復雜而分散的工具和數據庫,每個工具和數據庫都有自己的資源配置、定價和數據池,這給客戶帶來了挫敗感,并降低效率,他們不得不花費更多的時間和費用來管理他們的數據基礎設施。它還對客戶征收“集成稅”,客戶要為每項服務的計算和存儲資源分別支付費用。
Microsoft Fabric承諾通過提供真正的集成來消除這種復雜性——只包括一個數據副本、一種體驗和一個接口。Amalgam公司的Park說,“這里的部分創(chuàng)新在于,微軟公司以一個集成包的形式提供了所有這些功能。雖然聽起來很簡單,但這并不是大多數數據和分析供應商能夠提供的。”
Gartner公司的分析師Jason Medd對此表示認同。他說,Gartner公司對首席數據官的調查顯示,只有約30%的首席數據官表示,他們從數據和分析工具中獲得了價值。通過整合工具和降低價格,微軟公司正在解決這些痛點。
OneLake數據湖是如何工作的
微軟公司是如何通過OneLake實現這種簡單和統(tǒng)一的呢?關鍵是OneLake以一種稱為Apache Parquet的通用格式存儲了來自微軟公司各種服務的所有數據的單一副本。這是一種在業(yè)界廣泛使用的開源文件格式,它按列來組織數據。
這使得查詢和分析數據變得更加容易和快速。無論何時,客戶向其系統(tǒng)添加或更新任何數據,Microsoft Fabric都會自動以Parquet格式將其保存在OneLake數據湖中,而不管其原始格式如何。這意味著客戶可以直接從OneLake訪問和查詢他們的數據,而不必通過多個來源或服務。
例如,如果客戶想要使用微軟公司的商業(yè)智能工具Power BI來分析來自微軟數據倉庫Synapse的數據,他們不必向Synapse發(fā)送查詢。Power BI只是從OneLake檢索數據,這減少了跨服務的查詢數量,并降低了客戶的成本,客戶只需為單個存儲和數據存儲桶付費,而不必為多個存儲和數據桶付費。
OneLake如何從外部來源獲取數據
OneLake的簡潔性和統(tǒng)一性也延伸到了微軟生態(tài)系統(tǒng)之外的數據。這就是技術細節(jié)的問題所在:OneLake以一種名為Delta Lake的開源格式存儲其數據表,該格式創(chuàng)建了一層元數據,可將來自各種來源(例如CSV或JSON文件)的原始數據轉換為可被業(yè)內任何計算引擎分析的通用格式。
DBInsights公司的分析師Tony Baer在談到微軟公司擁抱開源時說,“微軟在這方面做了正確的事情。”
他說,供應商之間的競爭不在于文件格式,而在于實現數據庫的準確性和一致性標準,即ACID。Fabric通過開放格式進行的集成就是朝著這個方向邁出的一步。微軟的數據工廠提供了150多個預先構建的連接器,讓客戶可以輕松地從第三方服務轉換數據。
微軟公司也在研究自動化轉換過程的方法,而不是依賴于傳統(tǒng)的、耗時的提取、轉換和加載(ETL)方法。
Microsoft Fabric還支持多云場景,而亞馬遜公司在這方面進展緩慢。通過一項名為“快捷方式”的功能,OneLake可以在亞馬遜的S3存儲和谷歌的存儲(即將推出)中虛擬化數據存儲。
微軟Azure Data副總裁Arun Ulagaratchagan在接受行業(yè)媒體采訪時說:“既然要使用單一的開放格式進行共享,所有這些引擎都可以與數據原生協(xié)同工作,而不是碎片化。”他表示,微軟是第一個從完全受保護的格式轉向完全開放的格式的主要云計算供應商。
Ulagaratchagan說,在過去的幾年里,他與財富500強中的100家公司進行了探討,他們最感興趣的是Fabric的低成本、易于使用和無鎖定的承諾。
Microsoft Fabric的集成工作耗時數年
微軟發(fā)布Microsoft Fabric這一舉措可能看起來很突然,但這是該公司四年多來打破孤島和整合其數據服務的成果,這還需要克服內部政治和不同高管之間的斗爭。
其中一個里程碑是Synapse,它將多個服務(例如數據湖和數據倉庫)合并到一個中心。Microsoft Fabric是最終的集成,它將Synapse、Power BI和其他數據服務整合為一個單一的SaaS產品。
Blue Badge Insights公司行業(yè)顧問Andrew Brust說,“我認為這是一種跨越。它的功能是全面而有凝聚力的,這在以前是不可能的。” 他指的是微軟公司在Microsoft Fabric方面的舉動。
Brust承認自己有偏見。他表示,微軟公司是他的客戶,他是微軟數據平臺的產品經理,這使他成為在Microsoft Fabric發(fā)布之前了解Fabric的一群顧問、客戶和合作伙伴中的一員。Brust還表示,微軟將Microsoft Fabric作為SaaS,而不是PaaS,這一點意義重大。這意味著數據工程師不必處理計算單元的供應,這簡化了他們的工作。他認為,亞馬遜和谷歌在這一領域還有很多工作要做。
數據質量是贏得企業(yè)云競賽的關鍵
分析人士還強調,云計算提供商之間的主要競爭是數據質量,這是使客戶能夠獲得更好的見解并做出更好決策的因素。
Forrester公司的分析師Noel Yuhanna表示,他每天都會與三到四位企業(yè)客戶交談,他們抱怨遷移到云計算并沒有解決他們的數據質量問題。Yuhanna總結了大多數企業(yè)高管的觀點,他說,“我們有計算,有存儲,有Kubernetes。這很酷。但是我們真的使這個系統(tǒng)實現現代化了嗎?”他表示,這就是BearingPoint、Capgemini、Infosys和Wipro等系統(tǒng)集成商迄今為止通過云計算提供見解而獲利的原因。他們有自己的顧問,將根據數據編寫報告。
這也是微軟公司推動Microsoft Fabric的原因。Yuhanna表示,通過將數據源連接在一起,Microsoft Fabric提高了數據的一致性和可信度。他說,“數據復制的最大挑戰(zhàn)是數據到處都是,用戶無法再獲得一致的數據……Microsoft Fabric真的提供了數據的一致性。”
通過提供一個地方,就像提供了一個單一的窗口來查看數據管理。他說,“安全、治理、集成、發(fā)現,這正是它的意義所在。”
如果客戶希望將安全規(guī)則應用于他們的數據,他們可以在OneLake完成大部分工作。微軟公司在發(fā)布的一份聲明中表示,所有訪問數據的Microsoft Fabric下游應用程序都必須遵守這些規(guī)則。例如,如果客戶在Power BI中有敏感的工資信息,他們只希望某個團隊訪問,那么他們可以設置規(guī)則來確保這一點。無論文件被導出到哪里,它們都將遵循同樣的規(guī)則——甚至如果發(fā)送到Microsoft Fabric之外,也將遵循同樣的加密規(guī)則。
微軟趕上了Lakehouse的潮流
微軟公司落后于一些競爭對手的領域之一是所謂的“Lakehouse”,它結合了兩種技術:存儲企業(yè)數據的數據湖和分析數據的數據倉庫。
由于人工智能等需要大量數據和分析的應用程序的興起,Lakehouse變得流行起來。尤其是一家名為Databricks的公司,它一直是創(chuàng)建安全、開放的“Lakehouse”的行業(yè)先驅,許多分析師認為這是行業(yè)領先的技術。畢竟,是Databricks公司創(chuàng)建了DeltaLake協(xié)議。
另一家供應商Snowflake公司也提供了集成良好的Lakehouse產品。據報道,在Synapse品牌下,微軟公司在這一領域的產品表現不佳,微軟公司通過與Databricks公司建立密切的合作關系來彌補這一不足,Databricks公司在其Azure云平臺上提供支持。所以Microsoft Fabric也采用了DeltaLake協(xié)議也就不足為奇了。所有使用Databricks的客戶將繼續(xù)使用Microsoft Fabric。
分析師表示,Microsoft Fabric的整合也縮小了與Databricks公司和Snowflake公司的差距,并旨在超越它們。Microsoft Fabric將Databricks公司開創(chuàng)的開放格式擴展到微軟數據棧的其余部分,這更加全面。雖然微軟公司的Ulagaratchagan表示,很高興通過與Databricks這樣的平臺合作,為客戶提供選擇,但他也明確表示,微軟的Synapse打算引領Lakehouse市場。他說,“我們確實打算成為最好的產品和最好的套件。”
分析人士說,微軟的單一體驗和轉向SaaS產品,幫助Fabric的Synapse在一些關鍵方面取得了飛躍。Databricks仍然是一個PaaS產品,這意味著數據工程師仍然需要做更多的工作,并指定他們想要運行處理作業(yè)的節(jié)點數量。
Microsoft Fabric將其在商業(yè)智能和數據科學方面的優(yōu)勢結合起來,并增加了其他功能,例如模式檢測和工作流(Data Activator),這是一件大事,Amalgam的Park表示,將商業(yè)智能與人工智能結合起來對企業(yè)來說仍然是一個挑戰(zhàn)。微軟公司正在提供一個軟件包,在更大程度上解決了這個問題,超過了任何競爭對手。
生成式人工智能的力量尚未實現
最后,微軟公司表示,正在利用其從OpenAI公司投資中獲得的生成式人工智能技術來增強其Copilot工具。Copilot可以幫助用戶執(zhí)行任務,例如閱讀和匯總數據報告。借助OpenAI公司的技術,Copilot現在可以讓開發(fā)人員和分析師使用自然語言提出數據問題,并以自然語言接收答案。微軟的Ulagaratchagan表示,雖然這將提高生產力,但在Microsoft Fabric產品中應用生成式人工智能的全面影響還需要一段時間才能看到。
畢竟,Microsoft Fabric是客戶第一次體驗到端到端的數據集成,他們還沒有探索生成式人工智能能夠做什么。
Ulagaratchagan說:“你可以認為,它不僅僅是利用生成式人工智能加速客戶旅程中的一步,而是整個旅程,所以這是客戶尚未發(fā)現的機會。從客戶的實際使用情況中學習,并獲得正確的體驗,這一點至關重要。”
關于企業(yè)網D1net(r5u5c.cn):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運營19個IT行業(yè)公眾號(微信搜索D1net即可關注)
版權聲明:本文為企業(yè)網D1Net編譯,轉載需在文章開頭注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。