在线播放亚洲欧美日韩,亚洲人成图偷偷小说

如何捕捉冗長討論里的目標(biāo)信息？谷歌推出最大標(biāo)注數(shù)據(jù)集

責(zé)任編輯：editor004

作者：楊文

2017-05-18 12:19:58

摘自：雷鋒網(wǎng)

使用我們的語料庫，我們演示了如何分析話語行為，可以描述不同類型的討論，包括話語序列，如問答配對(duì)，分歧鏈，以及不同的社區(qū)中的表現(xiàn)。

雷鋒網(wǎng)AI科技評(píng)論按：信息爆炸時(shí)代，如何在浩瀚如海的網(wǎng)絡(luò)中找到自己的需求？谷歌研究團(tuán)隊(duì)推出了 Coarse Discourse 數(shù)據(jù)集，可以將一段文字中“廢話”剔除，精準(zhǔn)識(shí)別用戶所需要的目標(biāo)信息。作為一名雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))編輯，信息搜集和分類是日常工作中極為耗時(shí)的一件事。谷歌推出的新方法能否解決這一問題？

每一天，社區(qū)中的活躍者都在發(fā)送和分享他們的意見，經(jīng)驗(yàn)，建議以及來社交，其中大部分是自由表達(dá)，沒有太多的約束。這些網(wǎng)上討論的往往是許多重要的主題下的關(guān)鍵信息資源，如養(yǎng)育，健身，旅游等等。不過，這些討論中往往還夾雜著亂七八糟的分歧，幽默，爭(zhēng)論和鋪墊，要求讀者在尋找他們要的信息之前先過濾內(nèi)容。信息檢索領(lǐng)域正在積極探索可以讓用戶能夠更有效地找到，瀏覽內(nèi)容的方式，在論壇討論缺乏共享的數(shù)據(jù)集可以幫助更好地理解這些討論。

在這個(gè)空間中為了幫助研究人員，谷歌發(fā)布了 Coarse Discourse dataset，是最大的有注釋的數(shù)據(jù)集。 Coarse Discourse dataset包含超過10萬條人可在線討論的公開注解，這些是從reddit.com網(wǎng)站中的130個(gè)社區(qū)，超過9000個(gè)主題中隨機(jī)抽取的。

為了創(chuàng)建這個(gè)數(shù)據(jù)集，我們通過一小部分的論壇線程開發(fā)了論壇注解的話語分類系統(tǒng)。通俗的說就是閱讀每一個(gè)評(píng)論，并判斷評(píng)論在討論中扮演什么角色。我們用眾包的人工編輯再重復(fù)和修正這種練習(xí)來驗(yàn)證話語類型分類的重現(xiàn)性，包括：公告，問題，答案，協(xié)議，分歧，闡述和幽默。從這個(gè)數(shù)據(jù)，超過10萬條的評(píng)論由眾包編輯單獨(dú)注釋其話語類型和關(guān)系。連同眾包編輯的原注釋，我們還提供標(biāo)注任務(wù)指南，供編輯們使用幫助他們從其他論壇收集數(shù)據(jù)和對(duì)任務(wù)進(jìn)一步細(xì)化。

如何捕捉冗長討論里的目標(biāo)信息？谷歌推出最大標(biāo)注數(shù)據(jù)集

圖中為用話語類型和關(guān)系來注釋的示例線程。早期的研究結(jié)果表明，問和答模式在大多數(shù)社區(qū)是一個(gè)突出的運(yùn)用，有的社區(qū)會(huì)話更集中，來回的相互作用。

論文摘要

在這項(xiàng)工作中，我們提出了一種新的方法將在線討論中的評(píng)論分類成一些粗糙語料，是為了在一定規(guī)模上更好理解討論這個(gè)目標(biāo)的實(shí)現(xiàn)。為了促進(jìn)這項(xiàng)研究，我們?cè)O(shè)計(jì)了一個(gè)粗糙語料的分類，旨在圍繞一般在線討論，并允許工作人員簡(jiǎn)單注釋。使用我們的語料庫，我們演示了如何分析話語行為，可以描述不同類型的討論，包括話語序列，如問答配對(duì)，分歧鏈，以及不同的社區(qū)中的表現(xiàn)。

最后，我們進(jìn)行實(shí)驗(yàn)，使用我們的語料庫預(yù)測(cè)話語行為，發(fā)現(xiàn)結(jié)構(gòu)化預(yù)測(cè)模型，如在條件隨機(jī)場(chǎng)合下可以實(shí)現(xiàn)F1得分75%。我們還演示了如何擴(kuò)大話語行為，從單一的問和答到更豐富的類別?？梢蕴岣逹&A抽取的召回性能。

實(shí)驗(yàn)結(jié)論

使用了一種新的話語行為的分類，我們推出一個(gè)從Reddit上數(shù)千個(gè)社區(qū)采樣，最大的人工標(biāo)注的數(shù)據(jù)集的討論，在每個(gè)線程上的每個(gè)評(píng)論根據(jù)話語行為和關(guān)系注釋。從我們的數(shù)據(jù)集，我們觀察到常見的話語序列模式，包括問答和參數(shù)，并使用這些信號(hào)來表征社區(qū)。最后，我們用結(jié)構(gòu)化CRF模型進(jìn)行了分類的話語行為實(shí)驗(yàn)，實(shí)現(xiàn)了75% F1得分。此外，我們演示了如何使用我們的9個(gè)話語行為在只標(biāo)簽了問題和答案的模型，整體提高Q&A抽取的召回性能。

對(duì)于機(jī)器學(xué)習(xí)和自然語言處理的研究人員試圖描述在線討論的性質(zhì)，我們希望這個(gè)數(shù)據(jù)集是一個(gè)有用的資源?？梢栽L問我們的GitHub庫下載數(shù)據(jù)。更多細(xì)節(jié)，請(qǐng)查看論文 ICWSM，“Characterizing Online Discussion Using Coarse Discourse Sequences.”

via Google；雷鋒網(wǎng)整理編譯

谷歌數(shù)據(jù)集 dataset