數(shù)據(jù)融合(也將其視為數(shù)據(jù)混搭)解決了許多公司面臨的難題。由于很多公司現(xiàn)在已經(jīng)收集了數(shù)年或更長時間的數(shù)據(jù),現(xiàn)在經(jīng)常擁有數(shù)十個數(shù)據(jù)存儲庫,從Excel電子表格到Tableau工作簿。如果為業(yè)務(wù)洞察挖掘適當(dāng)?shù)臄?shù)據(jù),這些數(shù)據(jù)主體中的每一個存儲庫都提供了潛在的價值。
通過將不同的數(shù)據(jù)整合到一個數(shù)據(jù)集中,數(shù)據(jù)融合可以創(chuàng)建一個單一的源,同時將其輸入大數(shù)據(jù)軟件。重要的是,數(shù)據(jù)融合有助于揭示明顯對比的數(shù)據(jù)集之間令人信服的相關(guān)性。
數(shù)據(jù)融合的真正優(yōu)勢:數(shù)據(jù)融合往往是一個快速的數(shù)據(jù)挖掘過程,銷售代表和業(yè)務(wù)分析師可以使用它來進(jìn)行特定查詢,而無需IT支持人員的幫助。
數(shù)據(jù)融合可以幫助在每個項目的基礎(chǔ)上快速合并不同的數(shù)據(jù)
數(shù)據(jù)融合的優(yōu)點
將可能數(shù)據(jù)融合成單個數(shù)據(jù)的過多數(shù)據(jù)集幾乎是無窮的。這可能包括傳統(tǒng)數(shù)據(jù)庫、客戶關(guān)系管理(CRM)系統(tǒng)、人力資源、來自表單的用戶生成數(shù)據(jù)、社交媒體、營銷運營、Web分析,通常包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的自由組合。
可以肯定的是,數(shù)據(jù)融合并非沒有成本。企業(yè)員工必須花費時間從各種來源收集和路由數(shù)據(jù),數(shù)據(jù)融合需要投入企業(yè)員工的大量時間和精力。此外,某些數(shù)據(jù)湖可能比其他數(shù)據(jù)庫更難融入單個池中。這可能會給數(shù)據(jù)處理帶來棘手的管理挑戰(zhàn)。
然而,在這個信息泛濫的世界中,數(shù)據(jù)融合在數(shù)據(jù)挖掘中具有以下關(guān)鍵競爭優(yōu)勢。
•提供對關(guān)鍵數(shù)據(jù)的更快、更準(zhǔn)確的訪問,使企業(yè)能夠更快地收集洞察力。
•從直接數(shù)據(jù)挖掘到高級預(yù)測分析,它可以提高所有類型數(shù)據(jù)操作的效率。
•它為管理人員和與他們合作的數(shù)據(jù)科學(xué)家提供了更高質(zhì)量的數(shù)據(jù)智能。
•最終,它可以顯著改善決策制定,因為推動決策制定的數(shù)據(jù)更有條理、更具邏輯性。
數(shù)據(jù)融合工具可以使數(shù)據(jù)合并成為一個更快的過程
數(shù)據(jù)融合步驟:收集、合并、聯(lián)接
有些企業(yè)不愿意實施復(fù)雜的數(shù)據(jù)融合工作。畢竟,企業(yè)的每個部門通常都有自己的系統(tǒng)、格式和標(biāo)簽,用于處理和存儲數(shù)據(jù)。根據(jù)工作的不同,即使是基于項目的特定數(shù)據(jù)融合也可能是一個繁瑣且耗時的過程。
但是,如果將數(shù)據(jù)融合過程分解為其組成部分,則更易于管理。因此,盡管可能存在許多方面(權(quán)限問題、搜索數(shù)據(jù)),但在全局視圖中,數(shù)據(jù)融合分為三個步驟。
•數(shù)據(jù)收集:探索、標(biāo)記和量化所有需要的數(shù)據(jù)集。當(dāng)然,數(shù)據(jù)收集越徹底,從生成的數(shù)據(jù)集中獲得的洞察力就越多。
•數(shù)據(jù)組合:一旦大量數(shù)據(jù)被剔除,將這些不同的數(shù)據(jù)集連接到一個中央數(shù)據(jù)集,即數(shù)據(jù)池,或者用于大型的數(shù)據(jù)倉庫。
•數(shù)據(jù)清理/清除:在某些情況下,需要將數(shù)據(jù)轉(zhuǎn)換為允許存儲在單個存儲庫中的格式。此外,一旦檢查了所有數(shù)據(jù)的角落和縫隙,很可能需要清除一些數(shù)據(jù);它只是不可用或與企業(yè)的大任務(wù)相關(guān),所以它會減慢整個數(shù)據(jù)挖掘過程。
數(shù)據(jù)融合與數(shù)據(jù)集成
數(shù)據(jù)融合和數(shù)據(jù)集成這兩個術(shù)語,就像數(shù)據(jù)分析領(lǐng)域中的許多術(shù)語一樣,不同的人使用不同的術(shù)語。
簡短的比較:數(shù)據(jù)融合通常是更快、更基于項目的合并,而數(shù)據(jù)集成通常是更全面的數(shù)據(jù)源合并。
以下進(jìn)行一下深入探討:
數(shù)據(jù)融合:用于項目
如上所述,數(shù)據(jù)融合基于將多個數(shù)據(jù)源合并成一個數(shù)據(jù)集,該過程可能(或可能不)需要準(zhǔn)備或重新格式化數(shù)據(jù)。它通常強調(diào)速度,數(shù)據(jù)被混合用于特定時間敏感的項目或業(yè)務(wù)查詢。
而使用數(shù)據(jù)融合工具,因此不需要IT人員。然而,為了增加定義的復(fù)雜性,在某些情況下,企業(yè)正在進(jìn)行數(shù)據(jù)融合,以生成一個持續(xù)的單一存儲庫(而不是單個用例),該存儲庫將在市場條件變化時用于查詢數(shù)據(jù)。
數(shù)據(jù)集成:單一視圖
數(shù)據(jù)集成也指組合來自多個來源的數(shù)據(jù)。如果數(shù)據(jù)融合和數(shù)據(jù)集成之間存在關(guān)鍵區(qū)別,那就是數(shù)據(jù)集成提供了統(tǒng)一的數(shù)據(jù)視圖。
生成這種統(tǒng)一的視圖通常需要對基礎(chǔ)數(shù)據(jù)進(jìn)行一些深入的重新格式化,因此可以比較趨勢發(fā)展。在某些情況下,需要數(shù)據(jù)虛擬化。
簡而言之,數(shù)據(jù)集成往往是一個比數(shù)據(jù)融合更深入、更復(fù)雜的過程。
數(shù)據(jù)集成通常涉及提取、轉(zhuǎn)換、加載(ETL),這是企業(yè)已經(jīng)使用了數(shù)十年的過程。
數(shù)據(jù)融合、ETL和ELT
雖然數(shù)據(jù)融合被視為一個非?,F(xiàn)代化的過程,但由于當(dāng)今數(shù)字源的復(fù)雜性和數(shù)量的增加,實際上它遵循傳統(tǒng)的歷史過程。
例如,注意上述過程與ETL提取、轉(zhuǎn)換和加載(ETL)的相似之處:
•提?。簭亩鄠€來源收集數(shù)據(jù)。
•轉(zhuǎn)換:根據(jù)需要更改數(shù)據(jù)格式,以將其與其他不同的數(shù)據(jù)源混合。
•加載:將新格式化的數(shù)據(jù)傳輸?shù)絾蝹€數(shù)據(jù)存儲庫。
關(guān)于ETL過程的一個問題是,它通常需要IT人員參與。這可能意味著這些計劃不像數(shù)據(jù)科學(xué)家或?qū)嶋H設(shè)計和創(chuàng)建大數(shù)據(jù)查詢的業(yè)務(wù)分析師管理的系統(tǒng)那樣靈活且專注于項目。
然而,隨著業(yè)務(wù)速度的加快,以及查詢的數(shù)量和復(fù)雜性成倍增加,企業(yè)業(yè)務(wù)已經(jīng)轉(zhuǎn)向了ELT,這是一種數(shù)據(jù)融合的形式。與ETL相比,ELT是一個通常不需要IT人員支持而運行的過程。
它看起來是這樣:
•提取:從多個來源收集數(shù)據(jù)。
•加載:將數(shù)據(jù)(可能需要或不需要重新格式化)組織到一個位置。
•轉(zhuǎn)換:根據(jù)特定查詢的需要,將不同的數(shù)據(jù)源合并到項目所要求的范圍內(nèi)。
換句話說,ELT是一種關(guān)鍵的數(shù)據(jù)融合形式,它更靈活,更基于查詢,從數(shù)據(jù)挖掘中產(chǎn)生更快、更具體的業(yè)務(wù)洞察力。
數(shù)據(jù)融合工具
盡管“數(shù)據(jù)融合”被視為一種獨立于數(shù)據(jù)分析整個過程的技術(shù),但實際上數(shù)據(jù)專家將數(shù)據(jù)融合匹配為數(shù)據(jù)分析過程的一個固定部分。
事實上,鑒于數(shù)據(jù)洪流正在以指數(shù)形式增長,來自各種來源的數(shù)據(jù)融合行為可能是當(dāng)今數(shù)據(jù)科學(xué)家最常見的行為之一。
需要注意:數(shù)據(jù)融合可能是一個不精確的過程。意識到在某些情況下,當(dāng)合并數(shù)據(jù)時,可能包括數(shù)據(jù)的某些方面。在運行中融合數(shù)據(jù)時,用戶可以簡單地查看不同的數(shù)據(jù)。
在這種情況下,僅僅將數(shù)據(jù)聚合到單個視圖中是有幫助的,但是不會像真正的數(shù)據(jù)轉(zhuǎn)換和合并過程那樣啟用豐富的數(shù)據(jù)挖掘。
這提供了數(shù)據(jù)融合工具。雖然大量的“數(shù)據(jù)融合”并不比復(fù)制和粘貼Excel列更先進(jìn),但是一個良好的數(shù)據(jù)融合工具往往能夠快速收回成本。
以下這些應(yīng)用程序是數(shù)據(jù)融合工作中使用的主要工具之一:
• Sisense
• Tableau
• Clearstory Data
• Altair Knowledge Works
• Alteryx
• Lavastorm
• Trifacta
• Panoply
• Rapidminer
• Paxata