雷鋒網(wǎng)AI科技評(píng)論按:信息爆炸時(shí)代,如何在浩瀚如海的網(wǎng)絡(luò)中找到自己的需求?谷歌研究團(tuán)隊(duì)推出了 Coarse Discourse 數(shù)據(jù)集,可以將一段文字中“廢話”剔除,精準(zhǔn)識(shí)別用戶所需要的目標(biāo)信息。作為一名雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))編輯,信息搜集和分類是日常工作中極為耗時(shí)的一件事。谷歌推出的新方法能否解決這一問題?
每一天,社區(qū)中的活躍者都在發(fā)送和分享他們的意見,經(jīng)驗(yàn),建議以及來社交,其中大部分是自由表達(dá),沒有太多的約束。這些網(wǎng)上討論的往往是許多重要的主題下的關(guān)鍵信息資源,如養(yǎng)育,健身,旅游等等。不過,這些討論中往往還夾雜著亂七八糟的分歧,幽默,爭(zhēng)論和鋪墊,要求讀者在尋找他們要的信息之前先過濾內(nèi)容。信息檢索領(lǐng)域正在積極探索可以讓用戶能夠更有效地找到,瀏覽內(nèi)容的方式,在論壇討論缺乏共享的數(shù)據(jù)集可以幫助更好地理解這些討論。
在這個(gè)空間中為了幫助研究人員,谷歌發(fā)布了 Coarse Discourse dataset,是最大的有注釋的數(shù)據(jù)集。 Coarse Discourse dataset包含超過10萬條人可在線討論的公開注解,這些是從reddit.com網(wǎng)站中的130個(gè)社區(qū),超過9000個(gè)主題中隨機(jī)抽取的。
為了創(chuàng)建這個(gè)數(shù)據(jù)集,我們通過一小部分的論壇線程開發(fā)了論壇注解的話語分類系統(tǒng)。通俗的說就是閱讀每一個(gè)評(píng)論,并判斷評(píng)論在討論中扮演什么角色。我們用眾包的人工編輯再重復(fù)和修正這種練習(xí)來驗(yàn)證話語類型分類的重現(xiàn)性,包括:公告,問題,答案,協(xié)議,分歧,闡述和幽默。從這個(gè)數(shù)據(jù),超過10萬條的評(píng)論由眾包編輯單獨(dú)注釋其話語類型和關(guān)系。連同眾包編輯的原注釋,我們還提供標(biāo)注任務(wù)指南,供編輯們使用幫助他們從其他論壇收集數(shù)據(jù)和對(duì)任務(wù)進(jìn)一步細(xì)化。
圖中為用話語類型和關(guān)系來注釋的示例線程。早期的研究結(jié)果表明,問和答模式在大多數(shù)社區(qū)是一個(gè)突出的運(yùn)用,有的社區(qū)會(huì)話更集中,來回的相互作用。
論文摘要
在這項(xiàng)工作中,我們提出了一種新的方法將在線討論中的評(píng)論分類成一些粗糙語料,是為了在一定規(guī)模上更好理解討論這個(gè)目標(biāo)的實(shí)現(xiàn)。為了促進(jìn)這項(xiàng)研究,我們?cè)O(shè)計(jì)了一個(gè)粗糙語料的分類,旨在圍繞一般在線討論,并允許工作人員簡(jiǎn)單注釋。使用我們的語料庫,我們演示了如何分析話語行為,可以描述不同類型的討論,包括話語序列,如問答配對(duì),分歧鏈,以及不同的社區(qū)中的表現(xiàn)。
最后,我們進(jìn)行實(shí)驗(yàn),使用我們的語料庫預(yù)測(cè)話語行為,發(fā)現(xiàn)結(jié)構(gòu)化預(yù)測(cè)模型,如在條件隨機(jī)場(chǎng)合下可以實(shí)現(xiàn)F1得分75%。我們還演示了如何擴(kuò)大話語行為,從單一的問和答到更豐富的類別??梢蕴岣逹&A抽取的召回性能。
實(shí)驗(yàn)結(jié)論
使用了一種新的話語行為的分類,我們推出一個(gè)從Reddit上數(shù)千個(gè)社區(qū)采樣,最大的人工標(biāo)注的數(shù)據(jù)集的討論,在每個(gè)線程上的每個(gè)評(píng)論根據(jù)話語行為和關(guān)系注釋。從我們的數(shù)據(jù)集,我們觀察到常見的話語序列模式,包括問答和參數(shù),并使用這些信號(hào)來表征社區(qū)。最后,我們用結(jié)構(gòu)化CRF模型進(jìn)行了分類的話語行為實(shí)驗(yàn),實(shí)現(xiàn)了75% F1得分。此外,我們演示了如何使用我們的9個(gè)話語行為在只標(biāo)簽了問題和答案的模型,整體提高Q&A抽取的召回性能。
對(duì)于機(jī)器學(xué)習(xí)和自然語言處理的研究人員試圖描述在線討論的性質(zhì),我們希望這個(gè)數(shù)據(jù)集是一個(gè)有用的資源??梢栽L問我們的GitHub庫下載數(shù)據(jù)。更多細(xì)節(jié),請(qǐng)查看論文 ICWSM,“Characterizing Online Discussion Using Coarse Discourse Sequences.”
via Google;雷鋒網(wǎng)整理編譯