這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

責(zé)任編輯:editor007

作者:張馳

2016-06-28 22:55:16

摘自:雷鋒網(wǎng)

將在深圳舉辦一場盛況空前,且有全球影響力的人工智能與機器人峰會。目前主流的NLP技術(shù)以統(tǒng)計機器學(xué)習(xí)為基礎(chǔ),這就需要大規(guī)模的語料庫,沒辦法做通用處理,需要根據(jù)行業(yè)進行定制。

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

今年8月,雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)將在深圳舉辦一場盛況空前,且有全球影響力的人工智能與機器人峰會。屆時雷鋒網(wǎng)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請聯(lián)系:2020@leiphone.com。

要讓機器理解人類的話語,自然語言處理(NLP)是其中的關(guān)鍵技術(shù)。微軟將這一技術(shù)用在了小冰、Cortana這樣的虛擬助手,以及Skype的實時翻譯上;Facebook智能助手M的核心技術(shù)之一也是NLP。但稍微調(diào)戲一下就會發(fā)現(xiàn),這些通用的虛擬助手往往會答非所問,而M的背后更是有人類訓(xùn)練師的支撐。但這并不妨礙NLP技術(shù)在特定領(lǐng)域解放人力。

玻森數(shù)據(jù)通過中文語義分析開放平臺為開發(fā)者提供NLP API服務(wù),目前有15個處理引擎,其中3個供內(nèi)部使用,能實現(xiàn)文本的信息分類、情感分析、實體識別、文本聚類和關(guān)鍵詞提取等功能,主要服務(wù)對象是咨詢公司、金融及媒體機構(gòu)。比如,商家可以用相關(guān)引擎分析用戶對產(chǎn)品的評價。

玻森聯(lián)合創(chuàng)始人李臻介紹,一些實驗室也有做NLP引擎,但一般會針對具體的問題,而商業(yè)化語義引擎則要能快速進入某個領(lǐng)域,提供快速、標(biāo)準(zhǔn)的服務(wù)。目前有約4000開發(fā)者在使用玻森數(shù)據(jù)引擎。

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

  玻森引擎對本文的摘要分析

2015年初,出于政府信息公開力度加大的原因,玻森開始開發(fā)企業(yè)情報服務(wù)系統(tǒng)“風(fēng)報”。它以玻森的NLP引擎為基礎(chǔ),根據(jù)政府文書、新聞報道、公司內(nèi)部文件、財務(wù)數(shù)據(jù)和行業(yè)指數(shù)等(非)結(jié)構(gòu)數(shù)據(jù),分析公司的經(jīng)營信息,用于風(fēng)險控制和情報分析。以往了解一家公司可能需要自行查詢政府?dāng)?shù)據(jù)庫,并搜索相關(guān)媒體報道才能形成初步判斷,但李臻表示,他們可以按時間、性質(zhì)和事件形成公司的完整報告。這顯然能節(jié)省不少時間。

提供企業(yè)信息服務(wù)的公司不少,有天眼查、企查查、啟信寶等。李臻告訴雷鋒網(wǎng),風(fēng)報的核心是分析能力。企業(yè)信息涉及很多裁判文書,提煉關(guān)鍵信息要進行去重、實體抽取、分詞、清洗及分析等,這這些不是信息匯總就能完成的。

之所以選擇企業(yè)情報服務(wù)是因為有一定的行業(yè)基礎(chǔ)。玻森聯(lián)合創(chuàng)始人之一的紀(jì)敏曾負責(zé)數(shù)十個企業(yè)上市及并購項目,具有豐富的投融資經(jīng)驗。

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

  風(fēng)報中的關(guān)系挖掘展示

李臻表示,玻森的主要優(yōu)勢在于NLP及語料庫兩方面。

玻森引擎自2006年開始,到2013年正式進行項目研發(fā),有較長時間的技術(shù)積累,NLP引擎能進行半監(jiān)督半自動化的學(xué)習(xí)。它已經(jīng)在汽車、新聞和體育等行業(yè)有所應(yīng)用。以汽車為例,可以為汽車之家這樣的網(wǎng)站提供汽車咨詢,客戶訪談方面的分析,這需要對文本信息進行分詞、抽取等,結(jié)合行業(yè)用戶的知識體系再做引擎開發(fā)。李臻表示,目前少有其它公司用NLP做企業(yè)情報分析,因為NLP技術(shù)有比較高的進入門檻,一方面需要大量語料庫的積累,另一方面需要對應(yīng)用場景有深入理解的行業(yè)專家。

另外,目前主流的NLP技術(shù)以統(tǒng)計機器學(xué)習(xí)為基礎(chǔ),這就需要大規(guī)模的語料庫,沒辦法做通用處理,需要根據(jù)行業(yè)進行定制。機器學(xué)習(xí)近二十年的進展很迅速,“更多的數(shù)據(jù)勝過更好的算法”成了業(yè)內(nèi)許多人的共識。在良好算法的基礎(chǔ)上,語料對NLP模型的準(zhǔn)確性和通用性非常重要。而玻森目前在中文分詞、實體識別、關(guān)系抽取、情感分析上積累了上百萬條標(biāo)注語料。

未來,玻森還會開發(fā)機器人客服系統(tǒng),這也是NLP應(yīng)用較廣泛的領(lǐng)域,比較知名的公司有智齒客服。甚至,它還有圖像處理產(chǎn)品研發(fā)的打算,按李臻的說法,圖像識別所用算法與NLP相近。聯(lián)想到國外知名創(chuàng)業(yè)公司MetaMind在2015年從NLP領(lǐng)域轉(zhuǎn)型到圖像分析,這并不是令人意外的產(chǎn)品路線。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號