在本次的SQuAD競(jìng)賽中,金融壹賬通GammaLab的深度學(xué)習(xí)模型的閱讀理解能力非常接近人類水平,可以閱讀任何文章并回答問題,精準(zhǔn)匹配準(zhǔn)確度可達(dá)到83.435%,模糊匹配準(zhǔn)確度可達(dá)到85.992%,而人類水平是86.831%(精確匹配)和89.452%(模糊匹配)。
SQuAD(StanfordQuestion Answering Dataset)被譽(yù)為自然語言處理領(lǐng)域金字塔尖的比賽,旨在解決智能搜索的任務(wù),促進(jìn)智能搜索引擎的發(fā)展。
也正因?yàn)槭菢I(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解標(biāo)準(zhǔn)水平權(quán)威測(cè)試,幾乎所有擁有搜索業(yè)務(wù)的公司都會(huì)參加這個(gè)比賽來驗(yàn)證自身的實(shí)力。
來自谷歌、微軟亞研院、阿里達(dá)摩院、科大訊飛、IBM以及復(fù)旦大學(xué)等展開角逐。
2016年,斯坦福大學(xué)從維基百科上隨機(jī)選取了500多篇文章,并進(jìn)一步細(xì)分成兩萬多個(gè)段落。隨后采用眾包的方式,由人類閱讀這些文章后,為每個(gè)段落提出五個(gè)問題,并對(duì)段落內(nèi)的答案進(jìn)行人工標(biāo)注,搭建了該項(xiàng)競(jìng)賽的數(shù)據(jù)集1.1。
今年6月3日,斯坦福NLP團(tuán)隊(duì)對(duì)外宣稱, 機(jī)器閱讀理解數(shù)據(jù)集1.1完成一波更新,已搭建完成SQuAD 2.0。相較于SQuAD 1.1中的10萬問答,SQuAD 2.0又新增了5萬個(gè)人類撰寫的問題,而且問題不一定有對(duì)應(yīng)答案。
在SQuAD1.1數(shù)據(jù)集當(dāng)中,閱讀理解的主要難點(diǎn)是上下文的語義理解。所提問題的答案并不能靠簡(jiǎn)單的近鄰或相似度對(duì)答案進(jìn)行匹配,而是需要通過NLP的語義分析,在考慮前后文信息后從全文中尋找到最合適的答案位置。想要做好這一點(diǎn),需要算法能力達(dá)到人類閱讀理解的思考水平。在此基礎(chǔ)上,SQuAD2.0中新增的無答案的混淆問題進(jìn)一步提升了該任務(wù)的難度。一個(gè)問題所對(duì)應(yīng)的段落中有一定概率不存在正確結(jié)果,即要算法判斷是否能夠回答,并在此基礎(chǔ)上準(zhǔn)確回答問題。
不止是成功斬獲重磅級(jí)國(guó)際搜索競(jìng)賽(SQuAD)第一名,金融壹賬通加馬人工智能研究院GammaLab成立不到兩年,其實(shí)已經(jīng)取得累累碩果。
在微表情國(guó)際權(quán)威評(píng)測(cè)OMG微表情競(jìng)賽(One Minute Gradual Emotion Challenge)公布的評(píng)測(cè)排行榜中,金融壹賬通GammaLab的微表情識(shí)別技術(shù)取得重大突破,在情緒強(qiáng)烈程度(Arousal)和正負(fù)傾向(Valence)兩方面均以最高分的成績(jī)位列榜首,獲得世界第一的排名;在2018 EmotioNet 國(guó)際面部動(dòng)作單元(Action Unit, 簡(jiǎn)稱AU)識(shí)別競(jìng)賽上,金融壹賬通GammaLab以94.46%的準(zhǔn)確率獲得世界第一的排名。
如今,GammaLab作為平安金融壹賬通旗下人工智能研究院,已擁有超過350位精專于大數(shù)據(jù)、人工智能等領(lǐng)域的專家,累計(jì)申請(qǐng)專利技術(shù)200多項(xiàng),發(fā)表論文10余篇,推出了多項(xiàng)影響廣泛的人工智能場(chǎng)景化應(yīng)用。
比如,金融壹賬通GammaLab推出了一款智能音箱——Gamma智能銷售助手。搭載最新的機(jī)器閱讀理解技術(shù), 無需任何人工干預(yù),上傳一篇保險(xiǎn)文檔即可進(jìn)行任何問題的語音問答交互,閱讀理解模塊只需秒級(jí)即可完成文檔的理解,問答準(zhǔn)確率為91.35%,平均業(yè)務(wù)時(shí)間可縮短30%。