在分析業(yè)界,大數(shù)據(jù)是這些天被討論最多的詞。在企業(yè)業(yè)務(wù)方面,也許將掀起一場(chǎng)空前的變革浪潮。
絕大多數(shù)企業(yè)已經(jīng)意識(shí)到,快速、高效的分析、挖掘海量數(shù)據(jù)背后價(jià)值將給企業(yè)洞察未來,帶來絕對(duì)競(jìng)爭(zhēng)優(yōu)勢(shì)。
大數(shù)據(jù)一種空前的顛覆技術(shù),其將帶來數(shù)據(jù)倉庫協(xié)會(huì)( TDWI)已經(jīng)發(fā)布的3V——體積、速度、多樣性(Volume, Velocity & Variety.)外的第四方面的價(jià)值。
它使業(yè)務(wù)用戶以更快的方式處理每顆粒度的數(shù)據(jù)位,消除了傳統(tǒng)的采樣然后在模型的方式。
鼓勵(lì)調(diào)查用戶數(shù)據(jù)方法,因?yàn)榭梢越咏酱罅繑?shù)據(jù)。
能揭示隱藏在數(shù)據(jù)背后的深刻洞察力,由于大型數(shù)據(jù)的移動(dòng)特性,過去預(yù)測(cè)成本太過昂貴。
根據(jù)Gartner報(bào)告,大數(shù)據(jù)優(yōu)先于中小企業(yè),到2016年,將驅(qū)動(dòng)2320億美元的資金投放量。
一些用于大數(shù)據(jù)的技術(shù)平臺(tái):
基于分布式平臺(tái):Hadoop-MapReduce
基于硬件平臺(tái):Greenplum, IBM Puredata(Netezza), Oracle, Teradata
柱狀數(shù)據(jù)庫平臺(tái):HP Vertica, ParAccel, 1010data
內(nèi)存數(shù)據(jù)庫平臺(tái)/工具:SAP Hana, Qlikview, Tableau
非關(guān)系型數(shù)據(jù)/NoSQL:Cassandra, MongoDB, Splunk, Hbase
由于其超高的可伸縮性以及比其他平臺(tái)更低的成本,Hadoop位于技術(shù)列表中的最頂層,用于處理大數(shù)據(jù)。它是由一系列聯(lián)系的產(chǎn)品組合起來的,可以將大型數(shù)據(jù)集分成若干小塊放在商品型服務(wù)器上,并且在一個(gè)分布式集群環(huán)境里處理數(shù)據(jù),并快速返回結(jié)果。
可能用到大數(shù)據(jù)的一些行業(yè)案例:
保險(xiǎn):從固定在汽車上的監(jiān)測(cè)裝置上收集數(shù)據(jù),以基于駕駛習(xí)慣提供個(gè)性化的保險(xiǎn)政策,提供價(jià)格最優(yōu)化的保險(xiǎn)產(chǎn)品,索賠欺詐以及社會(huì)網(wǎng)絡(luò)鏈接分析。
零售:為整個(gè)購物車分析購物過程數(shù)據(jù)而不是樣本數(shù)據(jù),基于社會(huì)媒體的情感分析以提升品牌認(rèn)知度、客戶服務(wù)、競(jìng)爭(zhēng)環(huán)境分析、顧客與市場(chǎng)劃分、網(wǎng)絡(luò)日志分析等來了解顧客的行為。
銀行與金融:啟動(dòng)整個(gè)歷史數(shù)據(jù)以更好地識(shí)別欺詐行為,資本市場(chǎng)的貿(mào)易管制、為客戶更準(zhǔn)確的風(fēng)險(xiǎn)評(píng)估、挖掘呼叫中心的數(shù)據(jù)價(jià)值。
醫(yī)療:分析電子健康病例以提升患者治療率,與減少保險(xiǎn)支付成本、通過分析出院卡信息減少再入院率。
制造:預(yù)測(cè)保修成本與在備件物品上的檢測(cè)問題,數(shù)據(jù)挖掘幫助了解客戶對(duì)產(chǎn)品改進(jìn)的一些意見。
由于大數(shù)據(jù)舉措還處于不成熟的萌芽階段,有許多不同觀點(diǎn)與如何被應(yīng)用。企業(yè)需要關(guān)注大數(shù)據(jù)處理的過程,同時(shí)盡量避免移動(dòng)大量數(shù)據(jù)時(shí)非常昂貴的。
大數(shù)據(jù)幫助企業(yè)以及個(gè)人做出更佳決策——更快、更有效與更高質(zhì)量。