以下為現(xiàn)場速記。
梁有為:謝謝。今天我講的片子不多,大概半個小時,因為剛剛跟你們聊天發(fā)現(xiàn),有人走過來跟我們打招呼,Informatica,你是干什么?Informatica,不是ETL的嗎?我想,今天的分享比較活潑一點,Informatica現(xiàn)在是做什么事情的?當(dāng)然在片子里,我本來準備了一些案例,但有可能這些案例我會口頭講出來,因為我是負責(zé)華南區(qū),比如說廣州、深圳,香港、臺灣的一些案子,因為我是售前,所以我比較多的經(jīng)驗是這三個地區(qū)不同客戶的需求,我也跟這三個地區(qū)的CIO、CDO也會聊起來,現(xiàn)在你們的需求是什么呢,看看大家有沒有分享的地方。
大家都知道,從幾年前開始,大家都說數(shù)據(jù)很重要,不管是CIO還是其他人,我最近發(fā)現(xiàn)在香港有越來越多的新職位公司CDO,有的是CEO委派的,他想現(xiàn)在創(chuàng)建的一個新職位是CDO。大家都說數(shù)據(jù)很重要,但我要干什么,他不知道。我發(fā)現(xiàn)如果你是領(lǐng)先的行業(yè),比如說做電商的,或者是汽車行業(yè)的,其實你已經(jīng)轉(zhuǎn)型的很好,因為你就是轉(zhuǎn)型的火車頭,我發(fā)現(xiàn)現(xiàn)在很多企業(yè)覺得自己是落后的,或者是認為自己是傳統(tǒng)的行業(yè),需要有一些新的想法幫助自己創(chuàng)新,但又在想我究竟要不要做數(shù)字化轉(zhuǎn)型,這是每一個企業(yè)里想到的問題。
我和碧桂園的講解有點結(jié)合的地方。大家都知道,比如說碧桂園做地產(chǎn)的,現(xiàn)在很多數(shù)據(jù)從不同的裝備里、機器里產(chǎn)生出來,比如說你看的燈柱機器人,他除了幫助你做一些服務(wù)之外,背后產(chǎn)生很多數(shù)據(jù),從不同的來源產(chǎn)生很多數(shù)據(jù),然后就想需要數(shù)據(jù)。現(xiàn)在還有很火的機器學(xué)習(xí)、人工智能,Informatica要解決的東西,在這些概念里面,你說這些數(shù)據(jù)很重要、很大、很復(fù)雜,你現(xiàn)在的公司需不需要做這個事情呢?這是每一個企業(yè)要去想的,我們現(xiàn)在做一個國企,在湖南,他也很有趣的。他問我們,你們做那么多的案子,我們只是一個傳統(tǒng)的行業(yè),究竟我需不需要做這個事情呢?我就問,其實你們現(xiàn)在碰到的問題是不是其中的一個點里面,或者是一個開發(fā)點里面。什么意思呢?有時候我發(fā)現(xiàn)客戶說想做數(shù)字化轉(zhuǎn)型,不是為做而做,第一個,我把東西變得比較靈活,節(jié)省成本,倒不如我把我的應(yīng)用或者是很多設(shè)備放到不同的云上,有時候他會參考,我們在香港也做很多銀行和保險公司,他們有多達5個云的考慮。比如說我放在谷歌、放在亞馬遜,他們有這樣的考慮。因為這些考慮,如果我要做數(shù)字化轉(zhuǎn)型,跟我的業(yè)務(wù)有什么關(guān)系?很多時候是因為現(xiàn)在手機APP那么流行,希望給自己的客戶有更好的體驗,才想做數(shù)字化轉(zhuǎn)型。另外,我去湖南的一個國企,他為什么要做數(shù)字化轉(zhuǎn)型?我想你們也有做數(shù)倉,會出報表,以前的報表是很普通的,我從SAP過來的,我現(xiàn)在可以自己做報表了,做的很漂亮,可以給老板交功課,領(lǐng)導(dǎo)看到很開心。可是,他看到這個報表很漂亮之外,還會產(chǎn)生一些需求,這個數(shù)據(jù)從哪里來的?這個數(shù)據(jù)準確不準確?這個數(shù)據(jù)可不可以信任?我們現(xiàn)在有一些體驗,可能還沒有想到要怎樣在收入方面轉(zhuǎn)型增加收入。比如說我希望現(xiàn)在內(nèi)部的用戶可以做自助服務(wù),可是剛剛這些問題就跑出來了,不光是給他一個視覺化的報表工具就能解決問題。我們說湖南的國企,他想把這些東西再放大一點。每一個人都可以很容易地消費數(shù)據(jù),而且他要知道數(shù)據(jù)從哪里來,比如說質(zhì)量好不好,他是怎么去管理的等等。
我剛才也提到,現(xiàn)在有很多公司有一個創(chuàng)新的職位是CDO,你要幫我找出數(shù)據(jù)在企業(yè)里的價值在哪里,怎樣幫助我創(chuàng)新。但是他們都不清楚公司里的客戶數(shù)據(jù)、產(chǎn)品數(shù)據(jù)究竟放在哪里,這通常是每一個CDO考慮的,比如說我上任了,我第一個問的問題,問IT,我的客戶數(shù)據(jù)在哪里?IT會告訴說,可能在這個應(yīng)用里邊、在那個應(yīng)用里邊。他都沒有明確的答案。
我今天的分享是講數(shù)據(jù)治理,數(shù)據(jù)治理是很廣泛的名詞,以前我們說做數(shù)倉項目也是做數(shù)據(jù)治理,你做報表也是數(shù)據(jù)治理,你做數(shù)據(jù)整合也是數(shù)據(jù)治理,你做脫敏也是數(shù)據(jù)治理。但現(xiàn)在返過來了,我們看到的趨勢是如果你從項目去做數(shù)據(jù)治理,有什么問題呢?可能每一個部門他們自己做這個事情,最后沒有把整個東西拉通。現(xiàn)在我們返過來發(fā)現(xiàn),現(xiàn)在做數(shù)據(jù)治理的,以前是從下到上,現(xiàn)在是從上到下做這個事情。首先你做數(shù)據(jù)治理,你的目標是什么?最終你希望這個數(shù)據(jù),不管是內(nèi)部的業(yè)務(wù)也好,還是外部的客戶也好,去消費你的數(shù)據(jù)。否則你做那么多的處理,最后沒有人去消費你的數(shù)據(jù),那你花大的工作量干什么呢。但是如果要做這些處理的時候,現(xiàn)在你會發(fā)現(xiàn),當(dāng)然要消費這個數(shù)據(jù),不管是業(yè)務(wù)部門還是IT,中間做很多處理和數(shù)據(jù)治理的中間過程,我們希望有平臺落地。我看到很多在數(shù)據(jù)治理的項目狀況,可能有一個企業(yè)說要做數(shù)據(jù)治理,但我不知道要做什么事情。然后找咨詢公司過來,做一堆的梳理,然后給你一堆文檔。然后說這就是我們梳理完的結(jié)果,然后你們應(yīng)該怎樣,放上去做吧,但是你會發(fā)現(xiàn),如果這樣的話,我就開始做某些項目,項目運作的時候,整個方向會有改變、會有改動的。在整個企業(yè)里,沒有一個人或者是沒有一個團隊很明確地看到,我現(xiàn)在應(yīng)該朝哪個方向走。所以,數(shù)據(jù)治理從理論上來講,不管是業(yè)務(wù)部門還是IT部門,都一起參與整個數(shù)據(jù)治理的過程,而且必須要有明確的方法,讓我知道方向在哪里、指標好不好。
因為現(xiàn)在IT的環(huán)境太復(fù)雜了,舉個例子,五年前還沒有大數(shù)據(jù)項目,都是數(shù)倉、數(shù)據(jù)庫還處理得了。幾年前開始,大家都去做大數(shù)據(jù)項目了。我在香港感覺比較深的是現(xiàn)在都不做數(shù)據(jù)庫了,都跑到云上了。因為我們發(fā)現(xiàn),建一個數(shù)據(jù)庫成本太大了,他說沒有關(guān)系,都跑到云上。這幾年復(fù)雜的環(huán)境變化太快了,如果我們還是用傳統(tǒng)的方法做數(shù)據(jù)治理是很累的。我們現(xiàn)在做數(shù)據(jù)治理,必須要有一些AI的東西去輔助你做這個事情,要不然的話,我告訴你數(shù)據(jù)治理的應(yīng)用,最近有很多法規(guī),可能要經(jīng)過GDPR,GDPR是什么意思?如果你有一些客戶是歐洲的客戶,歐洲客戶的信息泄露出去,歐盟可以罰你很嚴重。
現(xiàn)在第一個問題,首先我的客戶數(shù)據(jù)在哪里?我的哪些數(shù)據(jù)是歐盟客戶的數(shù)據(jù)。IT就很頭疼,我?guī)装賯€系統(tǒng)、那么多數(shù)據(jù)庫,我怎么去看?我去銀行,銀行用的方法是很搞笑的,他給幾張紙,我去問應(yīng)用部門的頭兒,在你的應(yīng)用里面,你的data base里面,有哪幾張表是有數(shù)據(jù)的,然后就填進去。填完給我,我就信任你了。這個時候,很大的銀行是這樣做的。ok,這也正常。要做這個事情的話,你需要一些機器幫你做這樣的梳理,而不是讓人幫你做這個梳理。最后,大數(shù)據(jù)的架構(gòu)是很重要的,要做所謂的數(shù)據(jù)資產(chǎn)的管理。
我們發(fā)現(xiàn)你要做所謂的數(shù)據(jù)治理,你企業(yè)的數(shù)據(jù)要給不同的人去消費,每個人的需求都不一樣的時候,你怎么做這個事情。比如說這個是比較高層CDO想的問題,慢慢到業(yè)務(wù)線的主管、你的BU,有的是數(shù)據(jù)科學(xué)家,數(shù)據(jù)的消費者,他們對數(shù)據(jù)的需求都不一樣,如果從以前的方法,很簡單,我就給你??赡苣銈円沧鲞^元數(shù)據(jù)項目,舉個例子,我有10個應(yīng)用,你的10個數(shù)據(jù)庫,我把10個數(shù)據(jù)庫的說明都放在同一個地方,這張表、這個字段是什么意思,這張表和另外一張表中間的關(guān)系,我把它可視化出來,讓每個人都能理解,最后誰能理解呢?只有IT能夠理解,業(yè)務(wù)部根本不能理解。因為我們發(fā)現(xiàn)是每一個人想消費這個數(shù)據(jù),他們其實需要的程度都不一樣。CDO、老板需要的東西是比較偏業(yè)務(wù)的,而且他不需要那么細。但你剛剛走下去的時候,你發(fā)現(xiàn)IT的、數(shù)據(jù)消費者需要看很細很細,比如說我要知道這個字段的血緣分析從哪里來的,他再拿一張報表用這個字段,然后中間的處理過程,這些是IT很關(guān)心的,但對業(yè)務(wù)人員來講,我都不關(guān)心,我只是想知道這個數(shù)據(jù)究竟大概是什么樣的,而且質(zhì)量好不好。所以我們現(xiàn)在做數(shù)據(jù)治理,我們希望是從上到下的方法做這個事情。首先,以前我們做數(shù)據(jù)治理,我們把東西打開、攤開給每個人去看,這是沒意思的。我們必須要有一個平臺,把剛剛我說的找機器人公司做一些梳理,你整個企業(yè)里有哪些系統(tǒng)、有哪些數(shù)據(jù)或者是哪些字段、哪些法規(guī)、哪些人、哪些流程?,F(xiàn)在梳理完的結(jié)果,我會放到平臺里,這只是其中的一部分,這是系統(tǒng)和系統(tǒng)之間的血緣關(guān)系,當(dāng)然這是偏業(yè)務(wù)的,不是IT偏技術(shù)的血緣關(guān)系。因為有時候我們發(fā)現(xiàn),數(shù)據(jù)庫里有幾千張表,你每一張表去看,他比較關(guān)心的是某些比較重要的,可能和業(yè)務(wù)有關(guān)的,可能是和場景有關(guān)的,哪一些數(shù)據(jù)或者是字段,跟哪些系統(tǒng)、哪些人有關(guān),我把這些東西可視化。另外,我們還提供了一個很重要的事情,我們有一些所謂的可視化的報告,這是什么報告呢?這是數(shù)據(jù)質(zhì)量的報告。
我舉個例子,比如說通過我們的梳理,我們發(fā)現(xiàn)我們在某一個CIN里面是有客戶的數(shù)據(jù),而我必須要客戶的名稱、微信號碼、身份證號碼等不同的字段,我也希望這些字段里的質(zhì)量是好的,可能是做一個指標的,它不可以是空的,所填的東西必須是符合某一個規(guī)格的,可能從業(yè)務(wù)的角度定義了這些東西。我們做數(shù)據(jù)治理要做什么事情呢?業(yè)務(wù)需要的東西,我們要告訴他事實。我們通過我們的平臺,去真的掃描每一個數(shù)據(jù)庫。你覺得你需要是這些指標的數(shù)據(jù)質(zhì)量,我會去搜整個數(shù)據(jù)庫,你說的這個時段,究竟質(zhì)量怎么樣,我把它呈現(xiàn)給你看。以前所謂數(shù)據(jù)治理的手段是斷開的,你把這些東西拿來進行梳理,出來一堆報告、一堆結(jié)果,就放在一邊。隨著項目的開展、流動,這些事實和你原本概念上的東西會斷開,脫離開。我現(xiàn)在希望把這兩個東西永遠拉緊,你的指標、你的概念上有這些東西。事實上,我們發(fā)現(xiàn)在系統(tǒng)里,或者是整個企業(yè)所有系統(tǒng)里,你的現(xiàn)狀是這樣,隨時把這些東西放在一起,不管是數(shù)據(jù)治理的主管也好,或者是需要知道數(shù)據(jù)在哪里的人也好,會看到這個狀況,有了這個東西以后,才可以合作把數(shù)據(jù)治理的東西做好。
另外,在整個平臺里面,背后有一個很重要的能力,你有沒有一個企業(yè)的數(shù)據(jù)資產(chǎn)目錄,這是很重要的。舉個例子,有一個老板常常問,其實你哪些需求里有客戶數(shù)據(jù)?剛剛我提到的,你去每個應(yīng)用部門的頭兒幾張表,然后填填填?,F(xiàn)在不是這樣做了,現(xiàn)在是通過機器學(xué)習(xí)、大數(shù)據(jù)的能力做這個事情,我真的會去掃描每一個應(yīng)用里面,每一張表、每一個字段的內(nèi)容,去判斷這個內(nèi)容究竟看起來是一個名稱、是一個ID、是一個電話號碼、是一個地址,我們把這些都標簽出來。標簽出來以后,整個東西就是你企業(yè)的數(shù)據(jù)目錄。這個數(shù)據(jù)目錄有什么應(yīng)用呢?我們發(fā)現(xiàn)有三點,第一,我剛才提到了湖南的一個企業(yè),IT把數(shù)據(jù)放在一個數(shù)倉里,業(yè)務(wù)人員自己做報告,做的報告很漂亮,但問題是整個過程里,還是有一個問題,他還是要IT先幫他處理好數(shù)據(jù),放在一個地方,他去做報告?,F(xiàn)在能不能放過來,我把整個企業(yè)里所有的系統(tǒng)都盤點好了,都已經(jīng)打上標簽了,你自己去找,找出來以后。他可以給業(yè)務(wù)員收那個數(shù)據(jù)、改那個數(shù)據(jù),改完以后出報告。很多時候我們發(fā)現(xiàn),整個過程里做企業(yè)目錄的,第一個重點是能不能提供一個基礎(chǔ)分析,每個人都有消費數(shù)據(jù)。第二個是資產(chǎn)管理,所謂的資產(chǎn)管理,剛才提到所謂的數(shù)據(jù)目錄,很多是機器做的事情,機器幫你掃描、機器幫你打標簽,我們發(fā)現(xiàn)很多標簽是機器不能打的,舉個例子,業(yè)務(wù)的術(shù)語、業(yè)務(wù)的定義,這些是我們給業(yè)務(wù)參與,一起在企業(yè)的數(shù)據(jù)目錄里面,然后他們自己把這些業(yè)務(wù)的標簽打上去。所以,做完以后,整個東西就變成了數(shù)據(jù)的資產(chǎn)管理。機器能做的事情是什么?我去掃描、做血緣分析,但也需要有人參與。
數(shù)據(jù)的治理,落地在什么地方?你把從上到下,業(yè)務(wù)知道現(xiàn)在要做什么事情,后面我們通過企業(yè)數(shù)據(jù)目錄去掃描、打標簽,把數(shù)據(jù)資產(chǎn)化,我們落地到什么地方呢?我舉一個例子,可能今天因為法規(guī)的原因,我們針對GDP要做一些事情,比如現(xiàn)在法規(guī)說如果你有歐盟的客戶,我要特別地對他們的數(shù)據(jù)進行保護。你要做幾個事情呢?有幾個步驟,首先你要發(fā)現(xiàn)究竟哪些客戶數(shù)據(jù)是歐盟的客戶,而且哪些數(shù)據(jù)是敏感的。這個發(fā)現(xiàn)的過程,通過機器學(xué)習(xí),可以盤點,能夠做出來。第二,你找到那些東西,現(xiàn)在的狀況是你有沒有保護,有可能你已經(jīng)保護的好好的,ok,什么都不用做。但我會告訴你,我們找出這些東西之后,其實你沒有好好保護他,因為我發(fā)現(xiàn),這些數(shù)據(jù)晚上通過某些腳本或者是某些ETL的過程會流到另一個數(shù)據(jù)庫里,但中間你沒有做脫敏、沒有做加密,這也是平臺可以告訴你的事情。第三,你知道數(shù)據(jù)在那里,你沒有很好地保護。我們可以針對敏感數(shù)據(jù),幫你做脫敏、幫你做保護,而且我們會監(jiān)控整個過程。這是把數(shù)據(jù)治理變成應(yīng)用的場景,我為什么要做那么多事情,我要盤點我的數(shù)據(jù)、知道我的人、我的流程、我的系統(tǒng)在哪里,真的是你們?nèi)呙柽@個事情,我們希望把整個過程邏輯上結(jié)合起來,把他放到不同的應(yīng)用上。
我本來有一個案例分享,我可以給你看一下Informatica,不管是在國內(nèi)還是國外,我們在幫企業(yè)做數(shù)據(jù)治理的項目。Informatica,以前你印象中的Informatica是不是做數(shù)倉的,是不是做ETL的。剛才我們發(fā)現(xiàn),我們有集成的解決方案,我們有組數(shù)據(jù)的解決方案,我們有數(shù)據(jù)質(zhì)量解決方案,我們有一些脫敏的解決方案,我們有安全方面的解決方案,這些比較面熟的是華為,華為大概在三年前,他們的總部,他們想做一個數(shù)字資產(chǎn)的項目,那時候他們也看不同廠家企業(yè)目錄數(shù)據(jù)治理,最后他們也選了Informatica來做這個事情,因為他發(fā)現(xiàn)Informatica比較偏向于所有的方案有落地的軟件平臺。比如我雖然能做這個事情,但是我要開發(fā)的,我們不是這個角度的。Informatica是做什么事情呢?整個數(shù)據(jù)的過程是從外部的數(shù)據(jù)到消費的數(shù)據(jù),中間要做很多處理,要做什么處理呢?我舉個例子,企業(yè)目錄,我要做數(shù)據(jù)的盤點,可能我要做很多中臺的需求,先把數(shù)據(jù)集成集中在一個地方,這些集中的地方,我需要做數(shù)據(jù)的梳理、共享,如果從分析的角度,我們會把數(shù)據(jù)集中完之后,再把它集中到數(shù)倉或者是大平臺上面,中間我們通過一些模塊做數(shù)據(jù)質(zhì)量的提升管理。如果現(xiàn)在你把數(shù)據(jù)集中在同一個地方,這一堆數(shù)據(jù)里肯定有敏感數(shù)據(jù),你要好好保護,所以數(shù)據(jù)的安全這一部分,也是很重要的,數(shù)據(jù)管理的部分、數(shù)據(jù)治理的部分。這幾年看到很多企業(yè)開始想,數(shù)據(jù)管理怎么做。其實你看到的每一部分,Informatica是做數(shù)據(jù)管理的加工、提升的部分、質(zhì)量的部分、數(shù)倉數(shù)據(jù)庫的部分、組數(shù)據(jù)管理部分、企業(yè)目錄的部分、二級的部分,甚至于流程的部分,每一個部分我們都有落地的應(yīng)用解決方案。這是Informatica和其他廠家不一樣的地方。
Informatica做了很多年了,我們都是做數(shù)據(jù)管理的,做了25年了。我們比較有意思的地方,你發(fā)現(xiàn)這五個圈,Informatica是干什么的?一些成績表吧,Informatica是做集成的,NO.1。我們是做元數(shù)據(jù)的,企業(yè)目錄的部分,NO.1。我們做數(shù)據(jù)質(zhì)量的NO.1,我們做組數(shù)據(jù)管理NO.1,如果有些客戶說今天我有很多數(shù)據(jù)已經(jīng)搬到云上面,已經(jīng)有一些云的應(yīng)用,然后云和地、天和地、天和天怎樣去審核呢?Informatica也有成熟的解決方案。所以,如果幾年前或者是十年前,我在Informatica干了十年了,十年前你問Informatica是干什么的?Informatica是做ETR,現(xiàn)在Informatica干什么?如果你最近看過阿里的數(shù)據(jù)中臺那本書,里面也提到Informatica。其實中臺概念的能力,Informatica已經(jīng)很早就有了,只是那時候沒有中臺的概念,所以大家都不知道。Informatica,我們希望做一個中間人的數(shù)據(jù)治理平臺,這樣有很多的能力,很多企業(yè)在做數(shù)字化轉(zhuǎn)型的過程中,他需要有一個數(shù)據(jù)治理的總綱,我剛才提到的,偏業(yè)務(wù)的,把這些數(shù)據(jù)梳理完的結(jié)果,放到一個平臺上,不管是業(yè)務(wù)人員還是IT人員,讓大家看到現(xiàn)在的準確,這是數(shù)據(jù)梳理的部分。企業(yè)目錄部分,做數(shù)據(jù)的盤點、數(shù)據(jù)的標簽化、資產(chǎn)化,我們有不同的能力接入現(xiàn)有的數(shù)據(jù)庫、現(xiàn)有的應(yīng)用、云的應(yīng)用、大數(shù)據(jù)的應(yīng)用,這套存儲模型里面,Informatica沒有做存儲部分,但我們有一系列的管理的能力,比方說我們有ETL的部分,比如說績效轉(zhuǎn)換,我們有很強的能力,做數(shù)據(jù)的標準,數(shù)據(jù)標準的定義,數(shù)據(jù)質(zhì)量的提升、數(shù)據(jù)的準備,這個數(shù)據(jù)準備就是我們怎樣給業(yè)務(wù)人員自己做ETL,以前通常是IT做ETL,業(yè)務(wù)人員只是拿來做報表,現(xiàn)在是你去做吧,ok,怎么做組數(shù)據(jù)的管理,數(shù)據(jù)的安全風(fēng)險管理,還有數(shù)據(jù)的歸檔。這些不同的能量,我們有一個AI的引擎,你可以看到AI是藍色的。最后整個平臺上也有數(shù)據(jù)服務(wù)分發(fā)的能力?,F(xiàn)在這就是Informatica,所謂的數(shù)據(jù)智能平臺所做的事情,跟你們傳統(tǒng)想的Informatica只做這個,都25年了,所以這幾年有很多變化,Informatica全球大概有1萬個客戶,如果在大中華區(qū),現(xiàn)在已經(jīng)超過1000個客戶了,也分散在不同的行業(yè)里面。所以Informatica比較有意思,因為我們不是做某一個行業(yè),我們做所謂的數(shù)據(jù)管理領(lǐng)域里,這個是很廣泛的,政府部門、制造業(yè)、零售行業(yè)、電信行業(yè),都覺得這個東西是管用的。而且我自己看華南、香港、臺灣,發(fā)現(xiàn)每個地區(qū)、每一個行業(yè)的需求速度都不一樣,比方說八年、十年前,臺灣做金融服務(wù)很好的,那時候香港華人地區(qū)做的很好,這幾年可能在華人地區(qū)很多電商或者是電信行業(yè)東西都做完了,現(xiàn)在慢慢是把這些概念,所謂數(shù)據(jù)化轉(zhuǎn)型的概念轉(zhuǎn)到零售行業(yè)或者是制造業(yè),最近我在和很多政府部門合作做這個事情。
因為時間不多,我不可能把所有的東西都講透、講清楚,大家可以掃微關(guān)注我們的網(wǎng)站,也可以在我結(jié)束以后,再和我聊聊每一個部分。謝謝!