數(shù)據(jù)不沉海 爬蟲程式賦予數(shù)據(jù)新生命

責任編輯:editor005

2015-04-08 13:24:19

摘自:中國大數(shù)據(jù)

為進行搜集數(shù)據(jù),首先必須先因應不同的網(wǎng)站而寫出不同的爬文程式,而任何的程式語言都可以作為爬文程式撰寫的工具。社群媒體數(shù)據(jù)分析研究團隊的研究特色在于透過發(fā)展數(shù)據(jù)分析核心技術,減少人力的負擔。

在「云端」科技之后,近年「大數(shù)據(jù)(Big Data)」發(fā)展成一個震天價響的口號,各行各業(yè)對于投入大數(shù)據(jù)應用的研究開發(fā)是躍躍欲試,不愿意放棄任何一條可能開挖到金礦的山路,即便只是一條溪徑,各產(chǎn)業(yè)也愿意卷起衣褲放手一搏,只為了發(fā)現(xiàn)有黃金比喻的數(shù)據(jù)數(shù)據(jù)。

  數(shù)據(jù)的搜集是利用在網(wǎng)絡上爬行并截取所需要的數(shù)據(jù),這是條漫漫長路。過去的數(shù)據(jù)結構較簡易、呈現(xiàn)的方式大致上以HTML或是Server-side Scripts為主,因此過去在進行數(shù)據(jù)搜集作業(yè)時,是較為容易的;現(xiàn)今多利用Flash、AJAX等工具進行網(wǎng)站的建置,數(shù)據(jù)的結構也愈趨復雜,相對的也提升了搜集數(shù)據(jù)的困難度。

大數(shù)據(jù)

  為進行搜集數(shù)據(jù),首先必須先因應不同的網(wǎng)站而寫出不同的爬文程式,而任何的程式語言都可以作為爬文程式撰寫的工具。元智大學大數(shù)據(jù)中心的社群媒體數(shù)據(jù)分析研究團隊í表示,善用程式語言或是Open Source的函式庫(Library)可以提升程式撰寫的效率。然而,在進行程式語言的挑選時,爬行難易度以及爬行結果剖析準確度就為工具選擇的首要考量因素;再者,即考量程式語言的函式庫、套件(Package)等的多元性;最后,個人的喜好當然也是工具選擇的重要考量之一。

  社群媒體數(shù)據(jù)分析研究團隊表示,目前團隊使用的工具之一是Python,而選擇Python的塬因是因為Python提供較為便利的程式撰寫環(huán)境,并且提供專門針對支援爬蟲程式的套件;以上,相對于其它的程式語言而言,Python最大的優(yōu)點即是實用性高、彈性大,面對不同的網(wǎng)站可以迅速的進行反應。一體兩面地,有優(yōu)點固然有其缺點,Python在處理速度方面,相對于JAVA而言,是略遜一籌的;但該團隊表示,以當前的研究分析目的而言,這并不影響團隊在進行數(shù)據(jù)搜集、處理的速度?,F(xiàn)在,我們生活于一個資訊大爆炸的時代,搜尋引擎龍頭Google或其他營利或非營利團體皆會使用爬蟲程式進行網(wǎng)站數(shù)據(jù)的搜集;而社群媒體分析研究團隊表示,在使用爬蟲程式進行爬蟲時,必須要特別注意的即是「禮貌」,使用者必須注意爬行頻率是否適當,如果爬行頻率過高,除了可能造成網(wǎng)站的困擾,爬蟲程式亦可能遭到網(wǎng)站封鎖。因此,爬行頻率也可謂為該領域的網(wǎng)絡禮儀。

大數(shù)據(jù)

圖2:促銷活動討論度分析。

大數(shù)據(jù)

圖3:品牌關鍵字強度分析。


  現(xiàn)在許多使用者在購買產(chǎn)品前會先從網(wǎng)絡上搜集數(shù)據(jù)、藉由網(wǎng)民在各評論網(wǎng)站或社群網(wǎng)站上所分享的資訊或評價來決定購買意愿;現(xiàn)下社群網(wǎng)站當?shù)溃瑹o一企業(yè)不重視網(wǎng)絡社群口碑的影響力,并著手展開創(chuàng)新的商業(yè)模式;然而,為更精確的掌握客戶的想法和需求,企業(yè)藉由海量數(shù)據(jù)進行大數(shù)據(jù)分析,無形的口碑也神奇的被量化了。目前社群媒體分析研究團隊是與國內(nèi)某知名汽車廠商合作,主要已經(jīng)完成Mobile01、Facebook以及PPT等網(wǎng)站的爬蟲程式,再利用潛藏語意分析(latent semantic analysis)與獨立成份分析(independent component analysis)的自動偵測技術,為繁雜的評論進行情感標簽。

  就此合作案例而言,該團隊藉由數(shù)據(jù)的搜集、探勘并進行大數(shù)據(jù)分析以得出品牌的強、弱、危、機;而汽車廠商亦藉由該團隊所提出的分析和消費者產(chǎn)生了連結、互動,也因此更了解社群世界對各汽車品牌的觀感,并運用分析結果制訂出更有效的策略方案,在這波新興的社群經(jīng)濟下,勢必會為企業(yè)以及消費者締造出雙贏的未來。

  社群媒體數(shù)據(jù)分析研究團隊的研究特色在于透過發(fā)展數(shù)據(jù)分析核心技術,減少人力的負擔。主要成果í如下:

  避免傳統(tǒng)文件情感分類需要人工準備大量訓練數(shù)據(jù)的人力耗損。

  提出使用Semi-supervised learning的DA-SC技術來完成,僅需準備少量(14個) domain-independent opinion lexicons,便可達到與傳統(tǒng)做法的分類效能 (請參閱圖5)。

大數(shù)據(jù)

  圖5:A domain-adapted sentiment classification approach。

  自動找出「情感標簽」的技術

  傳統(tǒng)單獨使用Latent Semantic Analysis僅能找出latent features,單獨使用Independent Component Analysis僅能找出independent features。本研究發(fā)展出結合兩者的作法(請參閱圖6),不但能找出latent features,也能降低feature overlap。此外,本研究也發(fā)展出透過visualization選取features的工具(請參閱圖7)。

大數(shù)據(jù)



  圖6:A hybrid approach of LSA and ICA sentiment classification approach。

大數(shù)據(jù)

  圖7:Visualized Feature Selection Tool。

  新的Social Network Analysis metric來偵測網(wǎng)拍詐欺用戶

  傳統(tǒng)用于偵測網(wǎng)拍詐欺用戶的Social Network Analysis metric如k-core與center weight常無法同時達到好的precision 與recall。本研究透過分析與詐欺用戶交易之用戶的特性,提出neighbor diversity來改善precision 與recall。

  綜觀而言,大數(shù)據(jù)和社群是密不可分,目前行動上網(wǎng)的普及率以及社群網(wǎng)站的熱門程度是以正向趨勢在延燒著;同時,拜社群網(wǎng)站所賜,民眾也愈能快速、便利的將自己的意見表達在網(wǎng)絡上,無形的豐富了「數(shù)據(jù)」。

大數(shù)據(jù)

  圖8:社群媒體傾向分析。

  「Big Data」也就因應而生。社群媒體分析研究團隊表示,Google Trends利用分析「網(wǎng)站流量」、「關鍵字」對使用者的「搜尋」來預測人類未來的活動趨勢,而Google Flu Trends就是一個非常知名的應用,從搜尋的關鍵字去預測流感的發(fā)生,簡而言之,當大家都開始討論同一件事情時,就表示著有一件事即將爆發(fā)。而就應用面來看,從數(shù)據(jù)擷取時就必須網(wǎng)羅組織內(nèi)、外部數(shù)據(jù);所謂的組織內(nèi)數(shù)據(jù)是以有意的形式去進行搜集并控管;而組織外數(shù)據(jù)即是我們俗稱的社群數(shù)據(jù)。該團隊表示,若僅以由公司內(nèi)部所搜集到的數(shù)據(jù)進行分析,其周延性及準確性是有所欠缺的;就現(xiàn)今普羅大眾而言,大多數(shù)使用者皆是以社群網(wǎng)站作為發(fā)表言論、想法的主要管道,然而,這些社群數(shù)據(jù)主要即是用來突破過去的局限,讓企業(yè)更能全面性掌握消費者的心聲以利提供后續(xù)更優(yōu)質(zhì)的服務以及準確地提升產(chǎn)品品質(zhì)。

原文鏈接:http://www.thebigdata.cn/JieJueFangAn/13939.html

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號