在與兩位頂級數(shù)據(jù)分析思想領(lǐng)袖的廣泛對話中,行業(yè)媒體提出了當(dāng)今數(shù)據(jù)分析中的一些關(guān)鍵問題。以下的主題包括:
(1)在冠狀病毒疫情持續(xù)蔓延的情況下,如何看待當(dāng)前疫情影響數(shù)據(jù)分析部門或數(shù)據(jù)分析的工作實踐?
(2)商業(yè)智能專家和數(shù)據(jù)科學(xué)家在角色和關(guān)鍵優(yōu)勢方面有哪些不同?
(3)為什么“暗數(shù)據(jù)”很重要?針對暗數(shù)據(jù)的有效策略應(yīng)該是什么?
(4)很多高管表示他們的企業(yè)在數(shù)據(jù)分析方面面臨很多困難。為什么數(shù)據(jù)分析仍然如此困難?
為了提供對數(shù)據(jù)分析的深入了解,行業(yè)媒體與Hitachi Vantara公司首席創(chuàng)新官Bill Schmarzo和Splunk公司首席技術(shù)倡導(dǎo)者Andi Mann為此進(jìn)行了探討。
如何看待當(dāng)前持續(xù)蔓延的疫情正在影響數(shù)據(jù)分析行業(yè)和數(shù)據(jù)分析實踐?
Mann說:“數(shù)據(jù)分析很有趣,現(xiàn)在必須從數(shù)據(jù)分析獲得更多的洞察力。數(shù)據(jù)分析的方法之一就是嘗試了解在疫情這個經(jīng)濟(jì)低迷期間能夠更有效地將資源分配到何處。很多企業(yè)的員工在家遠(yuǎn)程工作,實際上并沒有中斷業(yè)務(wù),這真的很重要。
零售、在線服務(wù)、數(shù)字服務(wù)、營銷服務(wù)等行業(yè)受到了疫情的不同影響。他們可以采用更好的一種方法是使用數(shù)據(jù)分析,將其用于目標(biāo)營銷和與客戶進(jìn)行有針對性的接觸。當(dāng)然,對于非營利組織和政府機(jī)構(gòu)來說,能夠使用數(shù)據(jù)為處于經(jīng)濟(jì)低迷時期最需要的人員提供服務(wù),例如失業(yè)人員或者無家可歸的人員。
因此,可以使用數(shù)據(jù)分析來確定目標(biāo)。例如Splunk公司正在提供數(shù)據(jù)集并向公共服務(wù)機(jī)構(gòu)提供分析服務(wù)。我們正在與大學(xué)開展合作以嘗試追蹤傳播,我們正在與企業(yè)和政府合作以嘗試追蹤冠狀病毒疫情和其他事物的發(fā)展。因此,數(shù)據(jù)分析不僅可以幫助研究冠狀病毒的毒性和傳播機(jī)制,而且還可以幫助人們對抗冠狀病毒。
因為Splunk是一種數(shù)據(jù)分析平臺,我們不是自己創(chuàng)建數(shù)據(jù),而是從其他來源獲取數(shù)據(jù),并將其提供給各個州和聯(lián)邦政府機(jī)構(gòu),以便他們可以使用Splunk對數(shù)據(jù)集進(jìn)行分析。它真的很強(qiáng)大。”
Schmarzo說:“實際上,數(shù)據(jù)分析不僅可以用于抗擊冠狀病毒的蔓延,而且可以分析疫情結(jié)束之后的發(fā)展情況,這實際上都是非常重要的??紤]到全球各國為了應(yīng)對疫情而花費難以估量的費用,我們必須在某個時間點進(jìn)行償還。
因此,我認(rèn)為我們必須使用數(shù)據(jù)分析來采用更少的資源做更多的事情。我們將不得不非常微觀地關(guān)注營銷活動和治療活動。一切都將變得高度個性化。
例如醫(yī)療保健領(lǐng)域。很多政府部門現(xiàn)在就醫(yī)療保健和整體福利作出全面的政策決定。很多組織在這方面有太多浪費,因此需要從根本上獲得更多收益,或者說‘少花錢多辦事’的想法變得更加微觀化,這對于分析行業(yè)來說將是一件好事,因為我們非常擅長利用非常詳細(xì)的分析資料和數(shù)字趨勢,來真正了解每個客戶、老師、學(xué)生、設(shè)備之間的獨特差異。
所以我認(rèn)為,大多數(shù)組織都必須具備這樣一種心態(tài),即‘少花錢多辦事’,因為這是組織在面臨嚴(yán)峻的利潤壓力時能夠改變其經(jīng)濟(jì)價值曲線的唯一途徑,可以大幅增加稅收,而世界上沒有免費的午餐。”
您是否聽說過在這個困難時期如何進(jìn)行分析的事情?
Schmarzo說:“制藥領(lǐng)域的企業(yè)肯定是全天候不間斷運營。我上周和來自制藥商葛蘭素史克的機(jī)器學(xué)習(xí)工程師一起參加了一個小組討論,他們表示正在致力于研發(fā)抗擊冠狀病毒的藥物和疫苗。
我們作為數(shù)據(jù)行業(yè)人士,對關(guān)于疫情的數(shù)據(jù)缺乏更多的了解,這是一個悲劇。我們沒有進(jìn)行足夠的測試,有時甚至對其結(jié)果沒有信心?,F(xiàn)在發(fā)生的一切是就是沒有進(jìn)行數(shù)據(jù)科學(xué)的典型例子。當(dāng)一些人只通過收集的少量數(shù)據(jù)進(jìn)行預(yù)測和推斷時,這在某種程度上過度樂觀或者有些過于消極,人們只是沒有對這些問題應(yīng)用良好的數(shù)據(jù)科學(xué)嚴(yán)謹(jǐn)性。即使是一個很小的數(shù)據(jù)集,人們也可以深思熟慮,但必須清楚說明這些數(shù)據(jù)集的約束條件和假設(shè)。
小數(shù)據(jù)集并不是隨機(jī)樣本,沒有采用分析工作。有些人只是通過少量數(shù)字,然后推斷到某些極端情況。在許多情況下,這樣做只是因為他們自己的個人日程。”
Mann說:“我和很多客戶進(jìn)行了溝通,他們的數(shù)據(jù)科學(xué)家正在開展工作,但是在醫(yī)療保健領(lǐng)域,有很多人長期進(jìn)行數(shù)字運算工作,只是想弄清楚如何應(yīng)對和遏制病毒傳播,也有許多人試圖弄清楚該病毒的傳播方式。
因此,我看到金融界人士為了了解業(yè)務(wù)而采用數(shù)據(jù)分析。因此,使用數(shù)據(jù)科學(xué)來衡量他們的業(yè)務(wù)指標(biāo),就像我之前說的那樣,試圖嘗試并理解將資源放在哪里。
此外,我看到另一個數(shù)字處理的領(lǐng)域是保險業(yè),需要進(jìn)行保險索賠。保險行業(yè)將面臨很多挑戰(zhàn),因此他們進(jìn)行了大量的精算數(shù)字運算,正在將數(shù)據(jù)科學(xué)應(yīng)用于他們的精算實踐。在使用數(shù)據(jù)分析的效果方面存在很多缺陷,我認(rèn)為有些人并沒有意識到這一點。”
商業(yè)智能專家和數(shù)據(jù)科學(xué)家在角色和關(guān)鍵優(yōu)勢方面有哪些不同?
Schmarzo說:商業(yè)智能專家和數(shù)據(jù)科學(xué)家這二者都很重要。如果沒有報告可以告訴正在發(fā)生的事情,那么不知道將資源和數(shù)據(jù)科學(xué)工作重點放在哪里,因此它們是非?;パa(bǔ)的。這個信息圖表可能使商業(yè)智能領(lǐng)域廠商付出的代價比其他事情都要多,因為人們誤解為數(shù)據(jù)科學(xué)就是BI 3.0。
這二者非常不同,商業(yè)智能專家確實在努力清晰地傳達(dá)組織用來衡量進(jìn)度和成功的指標(biāo)和關(guān)鍵績效指標(biāo)(KPI)。
然而,數(shù)據(jù)科學(xué)家正試圖找出那些變量和指標(biāo),可能是更好的業(yè)績預(yù)測指標(biāo)。這是一條探索性很強(qiáng)的路線,將以失敗為中心,需要不斷嘗試,不斷失敗,不斷學(xué)習(xí),人們無法在數(shù)據(jù)科學(xué)方面衡量多少時間的進(jìn)展,如果了解錯誤肯定和錯誤否定的代價,那么實際上只能衡量自己在建立模型方面的效率,因此實際上這是兩個不同的世界。而這二者并沒有一個比另一個好的問題。
在數(shù)據(jù)科學(xué)領(lǐng)域,所有這些都集中于真正理解試圖證明的假設(shè),例如,需要衡量成功和進(jìn)步的指標(biāo)是什么,業(yè)務(wù)實體、利益相關(guān)者以及所有那些指標(biāo)非常不同。”
Maguire說:“談?wù)撨@二者的區(qū)別很有趣,很顯然,我認(rèn)為企業(yè)在選擇商業(yè)智能專家和數(shù)據(jù)科學(xué)家的簡歷時,很多人都可能會選擇數(shù)據(jù)科學(xué)家,因為聽起來很好。而且我認(rèn)為,以失敗為中心的數(shù)據(jù)科學(xué)專家也很有趣,這實際上可能是真正的學(xué)習(xí)。也許一些企業(yè)高管會說:“我們?yōu)槭裁礊檫@個以失敗為中心的專家支付這么高的薪酬?”
Schmarzo說:“如果沒有足夠的失敗,那就意味著嘗試并不足夠,也就是努力并不夠。失敗是一種有效的學(xué)習(xí)方法。在商業(yè)智能方面,如果構(gòu)建的架構(gòu)無法正常工作,那么這樣的失敗將不會被接受。不斷嘗試不同的數(shù)據(jù)和數(shù)據(jù)元素的組合、轉(zhuǎn)換和擴(kuò)充,試圖找出這些變量和組合中哪一個確實能提供更好的預(yù)測。”
Mann說:“商業(yè)智能和數(shù)據(jù)科學(xué)是兩種完全不同的科學(xué)。它們在很大程度上都是一種科學(xué)。商業(yè)智能隨著知識的積累而成長,這對于企業(yè)如何開展業(yè)務(wù)實際上非常重要。
這兩種科學(xué)確實存在一些非常大的差異。數(shù)據(jù)科學(xué)是關(guān)于創(chuàng)新過程,例如數(shù)據(jù)科學(xué)談?wù)摰氖莿?chuàng)新源于從失敗中吸取的教訓(xùn)。我認(rèn)為,如果沒有失敗,那么就不會學(xué)習(xí),通過嘗試可以獲取更多的數(shù)據(jù)和理解,應(yīng)該詢問更多的問題,而不是尋找更多的答案。
因此,數(shù)據(jù)科學(xué)家似乎提出了很多問題,而用戶又對數(shù)據(jù)提出了更多問題。用戶得到的每個答案都只是提出更多問題的機(jī)會。因此,這是另一種思維方式。我認(rèn)為,考慮將來自任何來源的數(shù)據(jù)帶到任何問題,而不是試圖找到答案,這是一種不同的思維方式。因此,數(shù)據(jù)科學(xué)家如何看待創(chuàng)新機(jī)會的思維方式確實存在根本性的差異。將數(shù)據(jù)視為永遠(yuǎn)沒有最終答案,并且總是提出更多問題。而商業(yè)智能專家尋求答案,因為他們的業(yè)務(wù)需要開展,這是他們需要的重要內(nèi)容。
因此,這種創(chuàng)新理念與經(jīng)營業(yè)務(wù)無關(guān)。這是我看到的最大差異之一,它在諸如預(yù)先部署、精心計劃與按需添加數(shù)據(jù)源等方面非常出色。
由于在商業(yè)智能中,知道要問的是什么問題,所以知道打算通過數(shù)據(jù)科學(xué)來規(guī)劃該數(shù)據(jù)集。因此需要能夠引入新的數(shù)據(jù)集,并在運行中不斷豐富。其中遇到的一些問題確實將數(shù)據(jù)科學(xué)的概念鎖定在了創(chuàng)新和問題上。我認(rèn)為這是一種非常有趣的觀察方式。”
Schmarzo說:“我再補(bǔ)充兩點。第一,商業(yè)智能專家真正關(guān)心的是了解發(fā)生的情況以及發(fā)生的領(lǐng)域。數(shù)據(jù)分析科學(xué)家是試圖了解它為什么會發(fā)生,當(dāng)將它們組合在一起時,它會變得功能強(qiáng)大。
另一件事,我認(rèn)為在商業(yè)智能專家將逐漸變得成熟。真正了解數(shù)據(jù)和分析可以在何處以及如何推動業(yè)務(wù)發(fā)展。他們具有更強(qiáng)的業(yè)務(wù)敏銳度,并且擅長進(jìn)行價值工程,識別、驗證和確定價值創(chuàng)造的來源。
然后將它們與數(shù)據(jù)科學(xué)相結(jié)合,這將成為一個強(qiáng)大的團(tuán)隊。有人曾問我,商業(yè)智能和數(shù)據(jù)科學(xué)有什么區(qū)別?我花了很長的時間來認(rèn)真思考,研究這二者在工作中是如何思考和處理的,以及如何改變事情的思維方式。然后得出的結(jié)論是團(tuán)隊需要這兩方面的人才。”
Mann說:“這讓我想到的另一件事,就是讓人工智能在很大程度上完成人類的工作。商業(yè)智能專家具有深厚的商業(yè)知識,這也許是數(shù)據(jù)科學(xué)家不具備的能力,因此需要了解他們的業(yè)務(wù),利用他們的智慧來了解他們試圖解決的問題。
而數(shù)據(jù)科學(xué)家通常會因為處理海量的數(shù)據(jù)集之類的東西,而經(jīng)常會使用機(jī)器學(xué)習(xí)和人工智能技術(shù)。因為人類確實不善于觀察,但機(jī)器確實擅長于此。因此,當(dāng)接觸到巨大的數(shù)據(jù)集時,使用機(jī)器學(xué)習(xí)幾乎成為獲得洞察力的必然選擇,而商業(yè)智能專家不一定需要采用機(jī)器學(xué)習(xí),只需要獲得正確的數(shù)據(jù)集,并以正確的方式使用它們來獲得所需的洞察力。”
Schmarzo說:“但是有趣的是,當(dāng)我們考慮到冠狀病毒疫情帶來的影響,必須能夠使用這些機(jī)器來幫助我們對客戶、員工、產(chǎn)品、服務(wù)、運營的每一個方面進(jìn)行非常細(xì)化的洞察。正是這種粒度級別可以使我們從中獲得更多收益,我們只是追求采用更少的錢做更多的事情。
傳統(tǒng)上,商業(yè)智能一直專注于聚合數(shù)據(jù)的分類,在聚合水平上看待事物以及做出一些決定。當(dāng)我們試圖用更少的錢做更多的事情時,我們需要那些機(jī)器來告訴哪些患者患有哪種疾病的風(fēng)險,哪些人面臨患病的最大風(fēng)險。”
為什么“暗數(shù)據(jù)”很重要?針對暗數(shù)據(jù)的有效策略應(yīng)該是什么?
Mann說:“這是我們真正感興趣的東西。Splunk公司是一家分析和處理數(shù)據(jù)的公司,客戶使用我們提供的數(shù)據(jù)分析平臺處理他們的數(shù)據(jù)。因此,數(shù)據(jù)確實非常重要,并且我們有一個理論,即無論使用什么數(shù)據(jù),使用的數(shù)據(jù)越多,就越能做得更好。因此,我們與一家獨立分析機(jī)構(gòu)Enterprise Strategy Group合作,要求他們驗證我們有關(guān)此暗數(shù)據(jù)的一些想法。收集更多數(shù)據(jù),使業(yè)務(wù)做得更好,這是我們的基本假設(shè),這成為了事實。
ESG公司分析師考察了企業(yè)如何更好地經(jīng)營。因此,他們著眼于收入、盈利能力和效率之類的指標(biāo),研究了使用和查找數(shù)據(jù)的含義。他們還圍繞企業(yè)的IT預(yù)算和支出用于數(shù)據(jù)分析的問題,對發(fā)現(xiàn)暗數(shù)據(jù)的承諾,以及對其進(jìn)行操作的效率提出了疑問。因此,當(dāng)查看可以在組織中使用更多數(shù)據(jù)的團(tuán)隊與最后使用且對數(shù)據(jù)的忠誠度較低團(tuán)隊之間的差異時,確實有顯著的不同結(jié)果。
當(dāng)我們談到這些人使用他們的暗數(shù)據(jù)時,所有這些隱藏在數(shù)據(jù)庫、日志流或邊緣設(shè)備、或各種渦輪機(jī)、生產(chǎn)線中的數(shù)據(jù),就會發(fā)現(xiàn),當(dāng)收集更多的數(shù)據(jù)時,就可以更多獲得,并且花費更少。而用更少的錢做更多的事,這很適合。
他們也能夠領(lǐng)先于競爭對手,開發(fā)和推出產(chǎn)品的可能性是競爭對手的兩倍。而且,在未來幾年內(nèi),超過客戶關(guān)注目標(biāo)的可能性是競爭對手的兩倍,從新產(chǎn)品和服務(wù)中獲得20%以上收入的可能性是競爭對手的10倍。所以數(shù)據(jù)直接推動了創(chuàng)新。這很吸引人。”
這都是關(guān)于挖掘未使用的數(shù)據(jù),但問題是如果數(shù)據(jù)已經(jīng)被使用了,那么如何找到資源來挖掘那些額外的數(shù)據(jù)呢?
Mann說: “我們實際上是與我們的客戶一起進(jìn)行數(shù)據(jù)源評估。例如數(shù)據(jù)在哪里,有什么數(shù)據(jù),用途是什么。而且,不一定非得尋求外部機(jī)構(gòu)的幫助來處理??梢宰尳M織內(nèi)部的數(shù)據(jù)科學(xué)家解決諸如此類的問題,因為正如之前所討論的那樣,數(shù)據(jù)科學(xué)家的作用在于發(fā)現(xiàn)尚未獲得的見解。因此,能夠使其數(shù)據(jù)科學(xué)家找到暗數(shù)據(jù),并開始圍繞如何??利用這些未知因素使組織的業(yè)務(wù)更好地制定策略,這是另一種看待世界的方式。”
Schmarzo說:“在有關(guān)暗數(shù)據(jù)的話題上,有一些非常有趣的事情。如何確定數(shù)據(jù)是否有價值?怎么知道應(yīng)該嘗試返回并找到這些數(shù)據(jù)源并將其引入?我們發(fā)現(xiàn),如果讓用例驅(qū)動它,這些用例將幫助人們區(qū)分哪些數(shù)據(jù)具有價值。它最終將幫助區(qū)分?jǐn)?shù)據(jù)中的噪聲和信號。因此,許多方法都非常以用例為中心。
選擇一個用例,了解要執(zhí)行的操作,然后集思廣益,可能想查看哪些數(shù)據(jù)源。這包括挖掘一些原有的數(shù)據(jù)。當(dāng)然,當(dāng)今最可能使用暗數(shù)據(jù)的例子是冠狀病毒疫情所發(fā)生的情況,以及韓國如何立即使用SARS和豬流感數(shù)據(jù)。他們收集了大量數(shù)據(jù),做出了一些正確的預(yù)測,那是10年前的數(shù)據(jù),那是無用的數(shù)據(jù)。誰會再需要這些數(shù)據(jù)?但這非常有價值,可以幫助他們真正做出精細(xì)的決策。
因此,組織擁有大量數(shù)據(jù),這些數(shù)據(jù)埋在組織的不同部分。我們找到解決問題的最佳方法是,考慮要使用的用例,然后將所有不同利益相關(guān)者召集在一起,開始考慮擁有哪些數(shù)據(jù),可以處理哪些數(shù)據(jù)并開始這一過程。很多時候,我們發(fā)現(xiàn)業(yè)務(wù)利益相關(guān)者和業(yè)務(wù)分析師了解什么數(shù)據(jù)可能有用。數(shù)據(jù)科學(xué)家實際上會告訴企業(yè)哪些數(shù)據(jù)有用。”
即使在當(dāng)今時代,為什么數(shù)據(jù)分析仍然如此困難?
Mann說:“所以我認(rèn)為有很多原因。我認(rèn)為這全都源于這樣一個概念,即人類在數(shù)字方面通常沒有那么優(yōu)秀。這并不是說有些人的數(shù)學(xué)不是很好,但是數(shù)字是一種構(gòu)造,大多數(shù)人都是通過視覺進(jìn)行觀察。而人類還可以使用聽覺和嗅覺來了解更多的信息。
此外,人們不是很擅長處理自相矛盾的想法。因此,當(dāng)數(shù)據(jù)告訴人們一些不知道的東西時這是一回事,但是當(dāng)數(shù)據(jù)告訴一些令人不相信的東西時,這很困難。因此,很多人會丟棄一些數(shù)據(jù),因為它們無法證實先前的觀點。當(dāng)人們談?wù)摴跔畈《疽咔闀r,有趣的是發(fā)現(xiàn)需要收集更多數(shù)據(jù),進(jìn)行更多測試,而使用更多數(shù)據(jù)的想法將改變這些模型的結(jié)果。
因此,我認(rèn)為人們不會自然地偏向于數(shù)據(jù)和分析。他們自然傾向于故事和想法。因此,正如我之前所說,要成為一名數(shù)據(jù)科學(xué)家需要一種獨特的心態(tài)。但是,它還具有獨特的能力,可以妥協(xié)并接受數(shù)據(jù)科學(xué)家的新想法,以使企業(yè)高管能夠推動這些計劃。不幸的是,這些是人類一些不常見的特征。”
Schmarzo說:“人類確實在數(shù)字和圖案處理方案方面很糟糕,如果需要任何證據(jù)證明的話,那么可以去拉斯維加斯賭場嘗試一下進(jìn)行賭博。有人說,賭博對于數(shù)學(xué)不好的人來說是一種收稅手段。
另外,很多人正在從數(shù)據(jù)分析中尋找魔力。問題當(dāng)然是“魔力”這一術(shù)語。數(shù)據(jù)分析沒有任何魔力,而是一項艱苦的工作。我們在數(shù)據(jù)科學(xué)領(lǐng)域所做的一切并沒有什么神奇之處,只是大量艱苦的工作。這實際上是一種流程和思維定勢。我們將探索許多不同的想法,將嘗試一些不同的事情,將會不斷面臨失敗,并且不斷迭代,并繼續(xù)在這個過程中不斷學(xué)習(xí)。這就是我們要做的很多事情就是讓企業(yè)高管如何像數(shù)據(jù)科學(xué)家一樣思考的原因。
我們有一套完整的方法來吸引高管人員。如何讓商務(wù)人士像一個已經(jīng)開始采用數(shù)據(jù)和分析功能的數(shù)據(jù)科學(xué)家那樣思考?在許多情況下,這要求他們不了解自己做過的事情,放棄他們原有的工作方式,現(xiàn)在準(zhǔn)備接受新的學(xué)習(xí)過程。”
Mann說:“我認(rèn)為這是因為人們在數(shù)字方面很差勁,可以這么說,如今擅長使用Excel的人都是數(shù)據(jù)科學(xué)家。但是我認(rèn)為采用的工具集也存在部分缺陷。因為數(shù)據(jù)科學(xué)家是非常聰明的人,所以他們不介意使用復(fù)雜而困難的工具集。我認(rèn)為作為IT領(lǐng)導(dǎo)者,需要創(chuàng)建更簡單的工具集。我們正在做的一件事是讓人們將開源算法插入機(jī)器學(xué)習(xí)工具包中。
因此,人們不必成為數(shù)據(jù)科學(xué)家即可采用數(shù)據(jù)科學(xué)。我認(rèn)為,作為IT和數(shù)據(jù)領(lǐng)域的領(lǐng)導(dǎo)者,我們可以做很多事情,以使數(shù)據(jù)科學(xué)更易于獲得。”
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。