最早提出詞匯“Big Data”的是2011年麥肯錫的《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》研究報告,他提到“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領(lǐng)域,成為重要的生產(chǎn)因素。”之后,大數(shù)據(jù)概念開始風靡全球。近年來大數(shù)據(jù)不斷地向社會各行各業(yè)滲透,可以為每一個領(lǐng)域帶來變革性影響,并且正在成為各行業(yè)創(chuàng)新的原動力和助推器。
以近年來在中國興起并急劇發(fā)展的輿情監(jiān)測和分析行業(yè)為例,即通過海量信息采集、智能語義分析、自然語言處理、數(shù)據(jù)挖掘,以及機器學習等技術(shù),不間斷地監(jiān)控網(wǎng)站、論壇、博客、微博、平面媒體、微信等信息,及時、全面、準確地掌握各種信息和網(wǎng)絡動向,從浩瀚的數(shù)據(jù)宇宙中發(fā)掘事件苗頭、歸納輿論觀點傾向、掌握公眾態(tài)度情緒、并結(jié)合歷史相似和類似事件進行趨勢預測和應對建議?;ヂ?lián)網(wǎng)如今已經(jīng)成為收集民意、了解政府和企業(yè)工作成效的一個非常有效的途徑。然而由于缺乏對互聯(lián)網(wǎng)發(fā)貼等行為的必要監(jiān)管措施,在輿情危機事件發(fā)生后,難以及時有效獲取深層次、高質(zhì)量的網(wǎng)絡輿情信息,經(jīng)常造成輿情危機事件處置工作的被動,因此,北信源輿情分析專家建議應該重視對互聯(lián)網(wǎng)輿情的應對,建立起“監(jiān)測、響應、總結(jié)、歸檔”的輿情應對體系。
大數(shù)據(jù)帶來的信息風暴正在改變我們的生活、工作和思維。輿情服務在進行行業(yè)規(guī)范和整合的同時,正面臨著大數(shù)據(jù)的挑戰(zhàn)。在國內(nèi)市場中,輿情分析類產(chǎn)品林林總總,產(chǎn)品水平也參差不齊。如何選擇一款優(yōu)秀的產(chǎn)品?首先需要選擇技術(shù)背景雄厚的生產(chǎn)廠商。北信源經(jīng)過十幾年的發(fā)展,擁有專門的數(shù)據(jù)管理部門和專業(yè)分析團隊,專業(yè)的技術(shù)人員對信息的鑒別力、萃取力、掌控力處于全國領(lǐng)先水平。
對大數(shù)據(jù)的采集加工是整個輿情分析服務的基礎,掌握數(shù)據(jù)抓取能力與輿情解讀能力,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”,是輿情分析的必備技能。北信源網(wǎng)情監(jiān)測平臺采用多線路、加密隧道方式作為互聯(lián)網(wǎng)上公開信息的采集通道,通過自主研發(fā)的爬蟲系統(tǒng),從網(wǎng)上自動獲取頁面信息。北信源輿情搜索引擎使用信息采集技術(shù)對全球范圍內(nèi)的網(wǎng)頁進行檢索,通過中文語義特性并結(jié)合輿情結(jié)構(gòu)特點而構(gòu)成的元數(shù)據(jù)搜索技術(shù),能夠提高信息采集的針對性,同時擴大采集范圍的廣度,提升輿情搜索的精準度。另外在采集的速率上,北信源網(wǎng)情監(jiān)測平臺通過“云計算”技術(shù)在互聯(lián)網(wǎng)不同位置可任意部署監(jiān)測工作站PC機,實現(xiàn)非重點網(wǎng)站的定時監(jiān)測、重要網(wǎng)站及鏈接全天候監(jiān)測。并根據(jù)網(wǎng)頁及鏈接的重要度,做到對最重要的網(wǎng)站數(shù)據(jù)分鐘級的采集更新。
如何對復雜大數(shù)據(jù)進行解釋是輿情服務的關(guān)鍵,數(shù)據(jù)分析的模式是否科學將直接影響數(shù)據(jù)分析的質(zhì)量,決定了輿情產(chǎn)品的可用性。基于數(shù)據(jù)分析,能否提煉出獨到、高質(zhì)量的觀點,在凌亂紛繁的數(shù)據(jù)背后找到更符合客戶要求的輿情產(chǎn)品和服務,并進行針對性的調(diào)整和優(yōu)化,這是大數(shù)據(jù)時代輿情最大的變量。北信源輿情分析引擎,涉及的最主要的技術(shù)包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤等計算機文本信息內(nèi)容識別技術(shù)。以數(shù)據(jù)挖掘為核心技術(shù),應用不同的建?;A,包括關(guān)聯(lián)規(guī)則、序列模式、頻繁序列、決策樹分類、神經(jīng)元網(wǎng)絡、線性回歸、Logistic回歸、K-Means聚類、模糊聚類、異常檢測等多種數(shù)據(jù)挖掘算法,結(jié)合相應的數(shù)據(jù)挖掘模型可視化方法,用預測模型對輿情數(shù)據(jù)進行預測評分。
對趨勢的研判則是大數(shù)據(jù)時代輿情分析的目標。如今人們能夠從浩如煙海的數(shù)據(jù)中挖掘信息、判斷趨勢、提高效益,但這遠遠不夠,信息爆炸的時代要求人們不斷增強關(guān)聯(lián)輿情信息的分析和預測,把服務的重點從單純的收集有效數(shù)據(jù)向?qū)浨榈纳钊胙信型卣?。北信源輿情監(jiān)測與分析平臺從情報檢索與分析技術(shù)基礎上發(fā)展起來,除了能夠跟蹤、協(xié)助解決關(guān)聯(lián)輿情,還能夠輔以經(jīng)過分析后的決策參考。
大數(shù)據(jù)時代的大輿情充分反映數(shù)據(jù)爆炸背景下的數(shù)據(jù)處理與應用需求,這是大數(shù)據(jù)時代最大的輿情變革。北信源網(wǎng)情監(jiān)測與分析管理平臺成功地實現(xiàn)了針對互聯(lián)網(wǎng)海量輿情自動實時的監(jiān)測、自動內(nèi)容分析和自動報警的功能,有效地解決了傳統(tǒng)的以人工方式對輿情監(jiān)測的實施難題,加快了網(wǎng)絡輿論的監(jiān)管效率,有利于組織力量展開信息整理、分析、引導和應對工作,提高用戶對網(wǎng)絡突發(fā)輿情的公共事件應對能力,加強互聯(lián)網(wǎng)“大數(shù)據(jù)”分析研判。并能夠協(xié)助用戶建立起輿情監(jiān)測應對體系:
快速發(fā)現(xiàn):實踐表明,在互聯(lián)網(wǎng)輿情出現(xiàn)后4小時內(nèi)是控制輿情的黃金時間,被稱為“黃金4小時”;
體系化應對:建立起橫向、縱向的專職輿情員隊伍,當輿情出現(xiàn)時統(tǒng)一指揮、協(xié)同作戰(zhàn)、快速響應、科學應對;
總結(jié)歸檔:做好輿情存檔、應對能力回溯與評估有利于改進行業(yè)行政執(zhí)行力,避免類似的輿情再次發(fā)生,也可以預測某類輿情的發(fā)展趨勢及總結(jié)對該類輿情的科學應對措施。