亚洲皇冠成人无码影院,亚洲免费视频你懂的

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

責(zé)任編輯：editor007

作者：張馳

2016-06-28 22:55:16

摘自：雷鋒網(wǎng)

將在深圳舉辦一場盛況空前，且有全球影響力的人工智能與機器人峰會。目前主流的NLP技術(shù)以統(tǒng)計機器學(xué)習(xí)為基礎(chǔ)，這就需要大規(guī)模的語料庫，沒辦法做通用處理，需要根據(jù)行業(yè)進行定制。

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

今年8月，雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)將在深圳舉辦一場盛況空前，且有全球影響力的人工智能與機器人峰會。屆時雷鋒網(wǎng)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前，我們正在拜訪人工智能、機器人領(lǐng)域的相關(guān)公司，從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中，請聯(lián)系：2020@leiphone.com。

要讓機器理解人類的話語，自然語言處理（NLP）是其中的關(guān)鍵技術(shù)。微軟將這一技術(shù)用在了小冰、Cortana這樣的虛擬助手，以及Skype的實時翻譯上；Facebook智能助手M的核心技術(shù)之一也是NLP。但稍微調(diào)戲一下就會發(fā)現(xiàn)，這些通用的虛擬助手往往會答非所問，而M的背后更是有人類訓(xùn)練師的支撐。但這并不妨礙NLP技術(shù)在特定領(lǐng)域解放人力。

玻森數(shù)據(jù)通過中文語義分析開放平臺為開發(fā)者提供NLP API服務(wù)，目前有15個處理引擎，其中3個供內(nèi)部使用，能實現(xiàn)文本的信息分類、情感分析、實體識別、文本聚類和關(guān)鍵詞提取等功能，主要服務(wù)對象是咨詢公司、金融及媒體機構(gòu)。比如，商家可以用相關(guān)引擎分析用戶對產(chǎn)品的評價。

玻森聯(lián)合創(chuàng)始人李臻介紹，一些實驗室也有做NLP引擎，但一般會針對具體的問題，而商業(yè)化語義引擎則要能快速進入某個領(lǐng)域，提供快速、標(biāo)準(zhǔn)的服務(wù)。目前有約4000開發(fā)者在使用玻森數(shù)據(jù)引擎。

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

　　玻森引擎對本文的摘要分析

2015年初，出于政府信息公開力度加大的原因，玻森開始開發(fā)企業(yè)情報服務(wù)系統(tǒng)“風(fēng)報”。它以玻森的NLP引擎為基礎(chǔ)，根據(jù)政府文書、新聞報道、公司內(nèi)部文件、財務(wù)數(shù)據(jù)和行業(yè)指數(shù)等（非）結(jié)構(gòu)數(shù)據(jù)，分析公司的經(jīng)營信息，用于風(fēng)險控制和情報分析。以往了解一家公司可能需要自行查詢政府?dāng)?shù)據(jù)庫，并搜索相關(guān)媒體報道才能形成初步判斷，但李臻表示，他們可以按時間、性質(zhì)和事件形成公司的完整報告。這顯然能節(jié)省不少時間。

提供企業(yè)信息服務(wù)的公司不少，有天眼查、企查查、啟信寶等。李臻告訴雷鋒網(wǎng)，風(fēng)報的核心是分析能力。企業(yè)信息涉及很多裁判文書，提煉關(guān)鍵信息要進行去重、實體抽取、分詞、清洗及分析等，這這些不是信息匯總就能完成的。

之所以選擇企業(yè)情報服務(wù)是因為有一定的行業(yè)基礎(chǔ)。玻森聯(lián)合創(chuàng)始人之一的紀(jì)敏曾負責(zé)數(shù)十個企業(yè)上市及并購項目，具有豐富的投融資經(jīng)驗。

這家公司要用NLP技術(shù)提供企業(yè)情報服務(wù)

　　風(fēng)報中的關(guān)系挖掘展示

李臻表示，玻森的主要優(yōu)勢在于NLP及語料庫兩方面。

玻森引擎自2006年開始，到2013年正式進行項目研發(fā)，有較長時間的技術(shù)積累，NLP引擎能進行半監(jiān)督半自動化的學(xué)習(xí)。它已經(jīng)在汽車、新聞和體育等行業(yè)有所應(yīng)用。以汽車為例，可以為汽車之家這樣的網(wǎng)站提供汽車咨詢，客戶訪談方面的分析，這需要對文本信息進行分詞、抽取等，結(jié)合行業(yè)用戶的知識體系再做引擎開發(fā)。李臻表示，目前少有其它公司用NLP做企業(yè)情報分析，因為NLP技術(shù)有比較高的進入門檻，一方面需要大量語料庫的積累，另一方面需要對應(yīng)用場景有深入理解的行業(yè)專家。

另外，目前主流的NLP技術(shù)以統(tǒng)計機器學(xué)習(xí)為基礎(chǔ)，這就需要大規(guī)模的語料庫，沒辦法做通用處理，需要根據(jù)行業(yè)進行定制。機器學(xué)習(xí)近二十年的進展很迅速，“更多的數(shù)據(jù)勝過更好的算法”成了業(yè)內(nèi)許多人的共識。在良好算法的基礎(chǔ)上，語料對NLP模型的準(zhǔn)確性和通用性非常重要。而玻森目前在中文分詞、實體識別、關(guān)系抽取、情感分析上積累了上百萬條標(biāo)注語料。

未來，玻森還會開發(fā)機器人客服系統(tǒng)，這也是NLP應(yīng)用較廣泛的領(lǐng)域，比較知名的公司有智齒客服。甚至，它還有圖像處理產(chǎn)品研發(fā)的打算，按李臻的說法，圖像識別所用算法與NLP相近。聯(lián)想到國外知名創(chuàng)業(yè)公司MetaMind在2015年從NLP領(lǐng)域轉(zhuǎn)型到圖像分析，這并不是令人意外的產(chǎn)品路線。

NLP 情報服務(wù) 文本聚類