標(biāo)題注釋:本文是國家社科基金重點項目“基于大數(shù)據(jù)的視聽傳播效果研究”(項目批準號:14AXW008)的階段性成果。
如今,人們所掌握的數(shù)據(jù)量相比從前來說已經(jīng)是天文數(shù)字,無論是巨大的數(shù)據(jù)采集量,還是新聞報道文字為主的表達形式,抑或個性化生產(chǎn)的可能性,大數(shù)據(jù)新聞都從根本上改變了新聞生產(chǎn)的思路與流程。①大數(shù)據(jù)思維和方式正全面介入從內(nèi)容采集到制作、分發(fā)的新聞生產(chǎn)全過程。
一、新聞內(nèi)容采集
1.選題價值的精準判斷
傳統(tǒng)的新聞選題主要是頭腦風(fēng)暴和任務(wù)分派的結(jié)果,而將大數(shù)據(jù)引入選題決策環(huán)節(jié)則使其更為客觀、更有效率,真正讓用戶參與到新聞生產(chǎn)流程中。過去受眾反饋渠道有限,受眾分析也是以傳統(tǒng)的抽樣調(diào)查為主,樣本量有限,而且獲得數(shù)據(jù)的成本高、周期長,難以快速全面地反映受眾市場,這樣的數(shù)據(jù)調(diào)查也很難成為日常性的工作來支持新聞生產(chǎn)決策。而在大數(shù)據(jù)技術(shù)的支持下,參與調(diào)查或分析的用戶量動輒以百萬計,通過網(wǎng)絡(luò)到達目標(biāo)用戶回收調(diào)查結(jié)果、或者直接從網(wǎng)絡(luò)抓取熱門搜索和輿情,較高的效率和較低的成本使編輯在日常工作中就可以做到迅速發(fā)掘熱點并完成選題。以騰訊《事實說》為例,制作團隊基于騰訊新聞?wù){(diào)查入口,同時自制多個H5社交產(chǎn)品,通過了解用戶近期的關(guān)注點,來針對性地選擇議題、策劃內(nèi)容。再如,紐約時報每天要推送300篇文章,此前編輯需要花大量的時間閱讀來判斷和篩選出可能符合用戶需求的內(nèi)容。而基于大數(shù)據(jù)和機器學(xué)習(xí)的工具Blossom則把人力從大量的工作中解放出來。大數(shù)據(jù)在發(fā)現(xiàn)選題、判斷輿論趨勢以及發(fā)現(xiàn)用戶感興趣的內(nèi)容上,往往比有經(jīng)驗的編輯更為有效和精準。
2.信息來源的多樣化
傳統(tǒng)媒體時代,新聞信息主要靠記者采訪、調(diào)查獲得,而大數(shù)據(jù)時代,新聞信息的采集者已經(jīng)從專業(yè)記者向普通人轉(zhuǎn)變,甚至從人向機器轉(zhuǎn)變。
(1)眾包②:專業(yè)記者向普通人的轉(zhuǎn)變
眾包服務(wù)使得新聞來源從專業(yè)記者向普通人發(fā)生了轉(zhuǎn)變,過去由記者調(diào)查收集分析信息的任務(wù)被轉(zhuǎn)移到用戶身上,而記者完成的是內(nèi)容的再聚合,在這一過程中,新聞生產(chǎn)中的傳播者和接收者的角色都被重構(gòu)。英國衛(wèi)報的數(shù)據(jù)博客中有許多報道都是通過眾包搜集信息的。比如在調(diào)查國會議員開銷時,由于文件數(shù)量眾多,多達45萬個,但時間有限,于是衛(wèi)報決定向讀者開放項目,讓讀者幫忙翻看資料,尋找數(shù)據(jù)中的異常,來發(fā)現(xiàn)有報道價值的故事。當(dāng)記者面臨大量的文件、統(tǒng)計數(shù)字或者報告需要核查時,采用眾包的方式就成為了一個非常明智的選擇,它可以高效地幫助調(diào)查記者完成任務(wù)、降低成本、節(jié)約時間。但目前這種資料搜集與信息核實的眾包服務(wù)在新聞領(lǐng)域還沒有被頻繁地應(yīng)用,同時眾包的公眾平臺與媒體之間還難以真正理解彼此的需要和責(zé)任邊界,因而合作并不像想象的來得那么容易。
(2)傳感器與無人機:人向機器的轉(zhuǎn)變
傳感器和無人機應(yīng)用于新聞生產(chǎn)領(lǐng)域,意味著信息采集者開始由人向工具轉(zhuǎn)變。傳感器在新聞生產(chǎn)中的作用主要在于生產(chǎn)或收集數(shù)據(jù)。它為數(shù)據(jù)新聞打開了新局面,提供了大量的數(shù)據(jù)來源。記者可以利用實時數(shù)據(jù)制作實時更新的動態(tài)圖表,或者基于數(shù)據(jù)做預(yù)測性分析。此外,傳感器還開辟了許多過去由于數(shù)據(jù)不易獲得而難以報道的領(lǐng)域。當(dāng)然它也有一些弊端,比如數(shù)據(jù)的質(zhì)量可能會受到很多方面的影響,設(shè)備質(zhì)量不過關(guān)、缺乏統(tǒng)一標(biāo)準或者被人為篡改等。無人機可以看作傳感器的一種,是對人們視覺感官的延伸。無人機攜帶攝像機從高空傳回影像數(shù)據(jù),記者將這些數(shù)據(jù)應(yīng)用到新聞報道中。其他的傳感器更多的是數(shù)據(jù)上的直接回傳,而無人機則提供更為直觀的影像。在視聽信息生產(chǎn)領(lǐng)域,眾包、直播、VR等前沿應(yīng)用可以相互結(jié)合,比如,無人機與眾包的結(jié)合。以Twitter為例,其用戶可以利用推文,對無人機的飛行方向、區(qū)域等進行遙控,同時快速獲取所拍攝內(nèi)容,并上傳到社交網(wǎng)絡(luò)上,并且還可以用無人機來進行遠程采訪。
3.信息可信度的驗證
大數(shù)據(jù)在驗證信息可信度上可以為記者提供很多幫助,其主要方法在于將信息與數(shù)據(jù)庫進行比對,從矛盾或者不合邏輯之處驗證信息的真?zhèn)巍T谛侣勵I(lǐng)域,目前此類應(yīng)用主要有兩種:一種是工具式的,比如谷歌搜索;另一種則是專題和節(jié)目式的,定期推出專題確認近期內(nèi)重要的或影響較大的信息的真?zhèn)?,以及指?dǎo)記者進行識別謠言。
(1)核查工具
在這個“有圖有真相”的讀圖時代,圖片卻未必是真實的,由此,一系列幫助人們核查圖片真實性的工具應(yīng)運而生。比如,圖片反向搜索引擎為記者們提供了一個搜索圖片源頭的最簡單也最重要的路徑。人們可以通過Google的圖片反向搜索功能和TinEye這樣的工具將圖片與數(shù)據(jù)庫進行比對,來核查其以前是否在網(wǎng)上出現(xiàn)過。對于視頻信息,目前還沒有可供反向搜索的成熟工具,但也有一些變通的方法可以進行核查。比如,YouTube Data Viewer是一個可以對YouTube上視頻進行核查的網(wǎng)站,輸入視頻的鏈接,可以獲得視頻ID、上傳日期和時間,還會給出一些視頻截圖,用戶可以直接對截圖進行反向圖片搜索,從而來搜索視頻的源頭。Jeffrey's Image Metadata Viewer網(wǎng)站則可以幫助用戶獲得數(shù)碼相機拍攝照片時在照片中植入的文件信息,比如拍攝時間、照相機型號、快門速度、曝光時長、GPS數(shù)據(jù)等,甚至包括在Google街景地圖上標(biāo)出拍攝者面朝的方向。這些信息可以更好地幫助記者確認信源照片的真?zhèn)巍?/p>
(2)核查專題(節(jié)目)
2011年,美國華盛頓郵報的一名編輯在參加一位政客的小型集會時,發(fā)現(xiàn)其和許多政客一樣一直在誤導(dǎo)聽眾,但是參與者似乎都沒有意識到自己被誤導(dǎo)了。為了解決這個問題,并為公眾及時提供他們需要的信息,華盛頓郵報啟動了名為Truth Teller的實時新聞核查項目。這個項目旨在盡可能實時地核查政客們發(fā)表的演講,主要采取以下步驟:首先從演講視頻中抽取出音頻,然后將音頻轉(zhuǎn)換為文本,再將文本放入數(shù)據(jù)庫中進行比對,并對事實進行核查。類似Truth Teller的項目還有哥倫比亞大學(xué)數(shù)字新聞中心開發(fā)的數(shù)字信源核實平臺Emergement,該平臺將自己定義為實時的謠言粉碎機,除了關(guān)注政治領(lǐng)域外,還針對熱門的事件進行核查,找出所有能搜集到的來源和最原始的出處,并列出在各來源中被分享的次數(shù),最終打上True(真)、False(假)、Unverified(未核實)的標(biāo)簽。而由麻省理工大學(xué)和卡塔爾計算研究所聯(lián)合研發(fā)的眾包核查服務(wù)和危機信息平臺Verily則主要是在危機發(fā)生時通過眾包的方式讓網(wǎng)友快速核查信息。比如當(dāng)尼泊爾發(fā)生地震時,上面會出現(xiàn)一些類似“救援是否已經(jīng)抵達多拉卡?”這種與災(zāi)情相關(guān)的提問,知情網(wǎng)友可以回答,“是”與“否”的回答人數(shù)也都呈現(xiàn)在問題下供其他人參考。③
二、新聞內(nèi)容制作
無論是寫作方式,還是呈現(xiàn)形式,抑或感覺體驗,大數(shù)據(jù)對新聞內(nèi)容制作環(huán)節(jié)的改變也是全方位的。
1.自動化寫作:機器人新聞
機器人新聞是指通過計算機程序?qū)⒁恍?shù)據(jù)融入結(jié)構(gòu)化的語言,從而生成新聞報道或者個性化的文章。目前其主要應(yīng)用領(lǐng)域是財經(jīng)和體育兩大類,因為機器人新聞寫作的方式主要是先創(chuàng)造好模板,然后通過計算機程序獲取數(shù)據(jù)后將其填入相關(guān)空格里。財經(jīng)和體育等方面的信息比較程式化,自然成為機器人新聞率先介入的領(lǐng)域。Automated Insight與Narrative Science是開發(fā)這類機器人的主要技術(shù)企業(yè)。據(jù)統(tǒng)計,Automated Insight有超過3億個模板可以供不同的新聞使用,它們在2013年就產(chǎn)生了3億條新聞,比其他所有媒體加起來的還要多。但在目前條件下,機器人新聞寫作依然有極大的局限性。比如,程序生成的新聞模板痕跡比較嚴重,且語法生硬;人類豐富的情感,程式化的機器人難以習(xí)得和模擬;最重要的一點,機器人新聞難以寫出深度內(nèi)容,想要挖掘數(shù)據(jù)背后更深刻的關(guān)系,除了數(shù)據(jù)作為基礎(chǔ),還需要人工深入的采訪調(diào)查。
2.可視化呈現(xiàn):數(shù)據(jù)新聞
數(shù)據(jù)與新聞的結(jié)合起源于20世紀中期在美國出現(xiàn)的計算機輔助報道(CAR),20世紀60年代興起了精確新聞學(xué)。大數(shù)據(jù)時代下,數(shù)據(jù)資源豐富,可供挖掘的方向和領(lǐng)域也更多,數(shù)據(jù)新聞再次成為關(guān)注的焦點。計算機輔助報道和精確新聞中,數(shù)據(jù)主要是信息源,多以支持觀點和判斷的論據(jù)出現(xiàn),而大數(shù)據(jù)背景下的數(shù)據(jù)新聞中,數(shù)據(jù)成為新聞的本體,過去以文字為中心的新聞敘事方式被改變。不僅如此,為了順應(yīng)“讀圖時代”的受眾需求,數(shù)據(jù)的可視化已逐漸成為目前數(shù)據(jù)新聞報道中不可或缺的重要環(huán)節(jié)。成立于2012年的Ouartz,這是一家關(guān)注全球最新經(jīng)濟資訊的數(shù)字化新聞機構(gòu),主要為移動端的平板和手機而設(shè)計。除了重要的新聞事件報道之外,Quartz經(jīng)常會做一些大數(shù)據(jù)的可視化新聞。社交媒體是數(shù)據(jù)的富礦,因而相繼出現(xiàn)了很多專門針對各類社交媒體的數(shù)據(jù)進行分析的網(wǎng)站和工具。有一些是幫助社交媒體用戶了解自己賬戶情況的,也有一些針對大范圍的數(shù)據(jù)分析與可視化呈現(xiàn)。針對Twitter的分析工具尤其多,如TweepsMap就是一個非常適合用戶分析和可視化自己Twitter網(wǎng)絡(luò)的工具,Twitonomy則是一個更為詳細的分析用戶Twitter博文的工具。
可視化為我們提供了直觀的數(shù)據(jù)分析結(jié)果,便于理解和想象復(fù)雜的數(shù)據(jù)結(jié)構(gòu),不同的數(shù)據(jù)結(jié)構(gòu)適用于不同的可視化表達方式,于是有公司開發(fā)了類似化學(xué)元素周期表的“可視化法周期表”,為人們做可視化提供了參考模板。這一周期表中列出了100種信息表達的可視化方法,鼠標(biāo)懸停在每一種方法上都可以看到具體示例。
3.沉浸式體驗:虛擬現(xiàn)實和增強現(xiàn)實
目前新聞傳播領(lǐng)域?qū)τ赩R(虛擬現(xiàn)實)技術(shù)的使用主要在深度報道、突發(fā)報道和媒介事件三個方面。如,美國紐約時報2015年推出了手機應(yīng)用NYT VR,并為訂閱者郵寄發(fā)放了超過100萬個谷歌紙盒式VR眼鏡。美聯(lián)社也屬于較早探索虛擬現(xiàn)實報道的媒體。2015年8月,美聯(lián)社與RYOT合作了《尋找家園》(Seeking Home)項目,描述法國加來難民營的生活。為了進一步發(fā)展沉浸式新聞,美聯(lián)社完全自主的VR360頻道已經(jīng)上線,目前該頻道已經(jīng)上傳了9部虛擬現(xiàn)實和360°全景視頻作品。在深度報道中的應(yīng)用比較成熟以后,突發(fā)報道和重大媒介事件直播成為目前VR重要的應(yīng)用對象,國內(nèi)目前關(guān)于VR的應(yīng)用主要集中在這一領(lǐng)域。比如,深圳滑坡事故發(fā)生之后,新華社聯(lián)合全景視頻制作公司,樂視聯(lián)合財新傳媒的VR團隊在第一時間奔赴救援現(xiàn)場,錄制了救援工作的全景視頻。
三、新聞內(nèi)容分發(fā)
新聞內(nèi)容的分發(fā)本質(zhì)在于“信息與人”的匹配。用戶時間有限,除了自己感興趣的話題,要在海量信息中甄別有用或潛在感興趣的內(nèi)容很難,因而用戶主動獲取的信息只能是非常小的一部分。而移動互聯(lián)網(wǎng)的發(fā)展使得推送越來越便利,大數(shù)據(jù)算法使得推送的內(nèi)容越來越精準。目前,基于大數(shù)據(jù)的新聞內(nèi)容分發(fā)產(chǎn)品已經(jīng)非常多,但仍存在一定的差異。這一市場仍然處于初期,究竟哪種模式更有優(yōu)勢、更符合用戶的需求還有待時間的檢驗??傮w而言,目前的新聞內(nèi)容分發(fā)產(chǎn)品根據(jù)算法的使用程度呈梯度分布:一是仰賴于與內(nèi)容生產(chǎn)方合作或者編輯選擇;二是人工與算法相結(jié)合的推薦方式;三是幾乎完全依據(jù)算法推薦。(如圖1)
圖1 新聞內(nèi)容分發(fā):從人工編輯到算法的階梯化產(chǎn)品分布示意圖
1.人工推薦為主
以人工推薦為主的新聞聚合產(chǎn)品,主要仰賴于與內(nèi)容生產(chǎn)方合作,比較典型的產(chǎn)品有Facebook旗下的Instant Articles和Notify,還有Snapchat旗下的新聞聚合產(chǎn)品Discover。Facebook先期推出了一款插件Instant Articles,它允許新聞?wù)军c直接把文章發(fā)布到Facebook上,為用戶提供更好的文章閱讀體驗。Notify則是Facebook稍晚推出的一款獨立的APP。用戶可以在Notify上訂閱各大新聞機構(gòu)的內(nèi)容,而且訂閱可以精準到某個網(wǎng)站的某個專題。Notify還會根據(jù)用戶在Facebook上的信息來推薦內(nèi)容,用戶就可以經(jīng)此隨時發(fā)現(xiàn)和添加新的站點。Discover是Snapchat(一款“閱后即焚”的照片分享應(yīng)用)旗下的新聞聚合產(chǎn)品。比起Facebook,Snapchat更注重入駐媒體的質(zhì)量,所有媒體在Snapchat上發(fā)布的內(nèi)容都是為這個平臺量身定做的。以上幾款內(nèi)容聚合分發(fā)的產(chǎn)品,其內(nèi)容主要還是來自各大新聞內(nèi)容生產(chǎn)機構(gòu),通過編輯的選擇和把關(guān)完成,用到大數(shù)據(jù)算法的部分相對較少。
2.“人工+算法”
蘋果公司2015年9月推出了新聞聚合應(yīng)用Apple News,該應(yīng)用同樣聚集了全球多家主流媒體,如紐約時報、路透社、彭博、CNN等。它與上述Notify等產(chǎn)品最大的不同在于,采用“人工+算法”的方式為讀者推薦新聞。它具有機器學(xué)習(xí)功能,可以通過記錄用戶搜索過的內(nèi)容來為其推薦相同主題的信息。國產(chǎn)的信息聚合應(yīng)用工具“即刻”則泛化了新聞的概念,所提供的內(nèi)容整合不只是新聞,而是互聯(lián)網(wǎng)上所有形態(tài)的信息。用戶自主選擇訂閱的不是某新聞網(wǎng)站下的某個專題,而是基于興趣的信息“點”,比如“豆瓣8.0分以上的新電影”“最新國內(nèi)融資事件”“熱門日劇同款穿搭”等等。該產(chǎn)品通過大量機器抓取與人工編輯相結(jié)合,把互聯(lián)網(wǎng)上的優(yōu)質(zhì)內(nèi)容篩選出來,更為精準地推送給用戶。
3.完全基于算法和機器學(xué)習(xí)技術(shù)
幾乎完全基于算法的內(nèi)容聚合產(chǎn)品大致可以分為兩種:一種是數(shù)據(jù)主要來自用戶對產(chǎn)品的使用,如Google News、今日頭條和鳳凰旗下的一點資訊;另一種則是依托于產(chǎn)品背后的大型社交媒體平臺的行為數(shù)據(jù)?;谒惴ǖ膫€性化推薦雖然已成為大勢所趨,但關(guān)于個性化的爭議和反思一直存在。不論是基于用戶行為數(shù)據(jù),還是基于社交媒體數(shù)據(jù),大數(shù)據(jù)并不等于全數(shù)據(jù),人們興趣、行為和需求之間的關(guān)系受到太多因素的影響,選取哪些因素進入算法會直接影響推薦的結(jié)果,而且算法本身也不成熟,推薦的精準性有待商榷。更為嚴重的則是這種方式所導(dǎo)致的“回聲室效應(yīng)”④。根據(jù)個性化算法的推薦,人們接收到的信息都是自己感興趣的和與自己類似的觀點,“人們的視野會越來越窄,接觸到多元化信息的機會也越來越少”⑤。
四、結(jié)語:對于大數(shù)據(jù)新聞生產(chǎn)應(yīng)用的反思
大數(shù)據(jù)已經(jīng)開始在新聞生產(chǎn)中大規(guī)模應(yīng)用,但其本身存在一些先天性的缺陷和后天不足,值得警惕與反思。
1.數(shù)據(jù)的合法性
在新聞生產(chǎn)中,大數(shù)據(jù)在各個環(huán)節(jié)都扮演了重要的角色,其與隱私相關(guān)的最重要環(huán)節(jié)是個性化推送部分。當(dāng)企業(yè)使用用戶在各個平臺上的行為數(shù)據(jù)來為用戶提供更具個性化的推送時,用戶所有的隱私都可能暴露無遺。在隱私權(quán)和個性化之間永遠需要一個平衡。要想達到平衡需要多方的努力:技術(shù)上,發(fā)展加密技術(shù);道德上,要求行業(yè)自律;法律法規(guī)上,在收集、存儲和分析數(shù)據(jù)的軟件中附上工程師們編寫隱私政策的要求,并且加強政府監(jiān)管。
2.數(shù)據(jù)的代表性
除了冗余數(shù)據(jù)太多、價值密度低外,大數(shù)據(jù)樣本的代表性也值得商榷。大樣本并不是全樣本,甚至在絕大部分領(lǐng)域,它都不可能是全樣本。來自于物理世界的科學(xué)數(shù)據(jù)和來自于人類社會活動的行為與關(guān)系數(shù)據(jù),二者的產(chǎn)生和收集都存在很大的局限性,特別是社會生活中存在的“沉默的大多數(shù)”會大大影響到相關(guān)數(shù)據(jù)的全面。在新聞生產(chǎn)過程中使用大數(shù)據(jù)時,需要對所使用的數(shù)據(jù)保持審慎的態(tài)度,不能因為是大數(shù)據(jù)就籠統(tǒng)地認為它比傳統(tǒng)的隨機抽樣調(diào)查更具代表性。
3.數(shù)據(jù)會說謊
人們通常認為數(shù)據(jù)真實客觀,是不會說謊的,但事實可能正相反。大數(shù)據(jù)從來源上說就未必是真實的,互聯(lián)網(wǎng)本身就充斥著大量的虛假信息——虛假的個人信息、購買的粉絲、雇人刷單的交易等等,我們不得不接受大數(shù)據(jù)里的這種虛假,這是網(wǎng)絡(luò)本身的特性決定的。另一種虛假則相對容易避免,它主要是源于對于數(shù)據(jù)的處理、解讀和呈現(xiàn),對統(tǒng)計現(xiàn)象只看結(jié)果不重解釋,很可能導(dǎo)致錯誤結(jié)論。
4.數(shù)據(jù)的解釋性和預(yù)測性
大數(shù)據(jù)的解釋力并不強,它只能說明相關(guān)關(guān)系,而無法表明因果關(guān)系。這恰恰與新聞的內(nèi)在邏輯相悖,新聞傾向于得出結(jié)論,即由什么原因才引發(fā)這樣的結(jié)果。新聞生產(chǎn)在應(yīng)用大數(shù)據(jù)時需要規(guī)避這一矛盾,通過人工調(diào)查、采訪、分析等手段完成自身的邏輯鏈條,從相關(guān)推進到因果。不僅如此,輕信大數(shù)據(jù)的預(yù)測也有一定的風(fēng)險。這是個不確定的世界,有許多決定性的影響因素都無法納入模型之內(nèi),過分依賴大數(shù)據(jù)及其預(yù)測模型是危險的。大數(shù)據(jù)依托的是已經(jīng)存在的數(shù)據(jù),是基于存量(過去)的;但新聞是向前走的,是基于變量(未來)的。兩者存在邏輯上的差異。