Shana是追一科技的人工智能訓(xùn)練師,她以語言學(xué)的學(xué)科背景“闖進(jìn)”了人工智能領(lǐng)域,從數(shù)據(jù)標(biāo)注成長為人工智能訓(xùn)練師。在工作中,她賦予機(jī)器人“人格”,給企業(yè)客服配備了閑聊的服務(wù)功能,客戶可以跟它調(diào)侃、閑聊,提升機(jī)器人寫詩、做對聯(lián)的技能,讓它更通人性。
Shana是北方人,在北京待了三年攻讀研究生,專業(yè)學(xué)的是語言學(xué)專業(yè)。在北京讀書的時候,她曾在一家互聯(lián)網(wǎng)巨頭公司有過兩段實(shí)習(xí)經(jīng)歷:一段經(jīng)歷是做產(chǎn)品經(jīng)理,另一段經(jīng)歷是做數(shù)據(jù)標(biāo)注。
堅(jiān)決要進(jìn)互聯(lián)網(wǎng)行業(yè)
那時是2013年。“當(dāng)時標(biāo)數(shù)據(jù)標(biāo)注是在NLP(自然語言處理)部門做的,算是開始接觸這個行業(yè)。”與局外人認(rèn)知不同,數(shù)據(jù)標(biāo)注并不是理工科學(xué)生的天下,反而是文科生施展拳腳的舞臺。Shana觀察到,和她一同實(shí)習(xí)的小伙伴基本上是語言學(xué)背景的同學(xué),“因?yàn)閿?shù)據(jù)標(biāo)注要求處理數(shù)據(jù)的時候比較細(xì)心,甚至有時需要一定的語言學(xué)背景知識”。
當(dāng)時這份實(shí)習(xí)更多的是偏重技術(shù)性的操作,數(shù)據(jù)標(biāo)注的規(guī)則已制定好了,實(shí)習(xí)生按部就班完成,沒有太多主觀能動性發(fā)揮的空間,“數(shù)據(jù)標(biāo)注基于提供的語料,然后你在語料上做一定的處理,它的一個很重要的規(guī)則就是統(tǒng)一性,所以你不能夠有更多的創(chuàng)造性”。
她感覺“AI落地生花其實(shí)也是兩年前左右的事情”。剛剛畢業(yè),Shana在深圳沒有發(fā)現(xiàn)非常對口的人工智能方面的崗位,偶然的一個契機(jī),她在朋友的推薦下,前往追一科技面試,然后正式開始了數(shù)據(jù)標(biāo)注的工作,從而打進(jìn)了理工科學(xué)生的領(lǐng)域。
成為人工智能訓(xùn)練師
工作后,Shana正式跨入人工智能領(lǐng)域,那時的她對技術(shù)的理解還比較淺。“我只是單純地從興趣出發(fā),我學(xué)的是語言學(xué),雖然不想做老師,但我還是希望自己的專業(yè)能夠有所用。”在她看來,數(shù)據(jù)標(biāo)注是給機(jī)器人提供語料,這屬于機(jī)器人教育,它不是教人而是教機(jī)器人學(xué)習(xí)某個東西,這與她的專業(yè)相近,能讓她發(fā)揮所長。傳統(tǒng)語言學(xué)的研究一直處在一個不溫不火的狀態(tài),但AI的興起讓我覺得傳統(tǒng)語言學(xué)有了一個新發(fā)展的方向——怎么樣把語言學(xué)研究的成果應(yīng)用到機(jī)器人的教育當(dāng)中來。這個方向其實(shí)也是Shana最感興趣的一個點(diǎn)。
傳統(tǒng)NLP需要詞性標(biāo)注、語法樹的標(biāo)注,這都可以用到語言學(xué)的一些東西,雖然用得比較淺,但是在深度學(xué)習(xí)領(lǐng)域可以怎么用?她也在思考,“最近發(fā)現(xiàn)機(jī)器人智能化的表現(xiàn)是趨向于用對話來解決問題,而不是像以前需要點(diǎn)擊屏幕。智能化發(fā)展的一個方向是對話交互,那怎樣可以增加對話的輪次,讓機(jī)器好像有了主動意識,從而更好地實(shí)現(xiàn)人機(jī)交互,可以持續(xù)性地聊下去,這是一個難點(diǎn)”。比如,通過智能客服訂機(jī)票或是詢問某只基金的情況,這樣的應(yīng)用場景就需要開展多輪對話,因?yàn)檫@樣相對復(fù)雜的業(yè)務(wù)流程不是簡單的對話就能完成的。
Shana的工作主要是根據(jù)客戶的需求對數(shù)據(jù)進(jìn)行標(biāo)注。這通常跟項(xiàng)目有關(guān),有金融類型的,也有互聯(lián)網(wǎng)的企業(yè),也有傳統(tǒng)企業(yè)。她的工作范疇也遠(yuǎn)超出數(shù)據(jù)標(biāo)注,而是跨入人工智能訓(xùn)練師的全流程作業(yè)——首先要跟客戶對接需求,明確要做一個怎樣的機(jī)器人,然后需要跟客戶去溝通訓(xùn)練機(jī)器人語料的問題,這需要保質(zhì)保量,之后對數(shù)據(jù)進(jìn)行清洗,再制定規(guī)則進(jìn)行數(shù)據(jù)標(biāo)注和訓(xùn)練機(jī)器人,這些都由AI訓(xùn)練師來做。
Shana從數(shù)據(jù)標(biāo)注自然而然轉(zhuǎn)身成為人工智能訓(xùn)練師。在她印象中,人工智能訓(xùn)練師其實(shí)也是大概兩年前的時候才誕生的新興職業(yè),剛開始并沒有AI訓(xùn)練師這個叫法,這個稱呼是從一家互聯(lián)網(wǎng)巨頭公司傳出來的。此后,人工智能訓(xùn)練師成為特定的一個崗位,這也是大量需求背后促進(jìn)社會分工進(jìn)一步細(xì)化。
如今,人工智能訓(xùn)練師成為一種炙手可熱的新職業(yè),人工智能訓(xùn)練師赫然出現(xiàn)在許多互聯(lián)網(wǎng)科技公司的招聘名單之中。甚至有城市向人工智能訓(xùn)練師發(fā)出招賢令,獲得高級專項(xiàng)能力認(rèn)證的人工智能訓(xùn)練師有機(jī)會申請公租房及落戶加分等政策福利。
讓機(jī)器人更懂人性
人工智能訓(xùn)練師的工作說通俗點(diǎn),就是把機(jī)器訓(xùn)練得更加“通情理、懂人性”,讓它更加適應(yīng)人類。
比如關(guān)于態(tài)度情緒標(biāo)注任務(wù),標(biāo)注類型是情緒厭惡,“我討厭你,你走開”和“哎喲,我討厭你”(這是撒嬌的語氣),中文的文法表達(dá)多樣,主體詞組相同,而不同的語氣和聲調(diào)可能表達(dá)的意思卻有天壤之別。人類很容易辨別,那機(jī)器如何通人性,懂得人類的情感呢?
Shana說,在這個例子中,兩組數(shù)據(jù)很明顯的區(qū)別在于是否有語氣詞,那么針對這個特征可以制定一個規(guī)則。如果將這個案例進(jìn)一步延伸,可能會有更多類似的表達(dá),但意思可能大不相同,這些人工智能訓(xùn)練師往往通過詞語和句式兩方面加以區(qū)分。“你要理解機(jī)器學(xué)習(xí),它最根本的是學(xué)習(xí)人類的文字表達(dá),它最底層的邏輯就是統(tǒng)計(jì),統(tǒng)計(jì)和概率沒有邏輯推理,所以你要從字面上去盡量找區(qū)別特征,其實(shí)通過文字特征已經(jīng)可以解決大量的問題了。”
讓機(jī)器更通人性是人工智能訓(xùn)練師的重要工作,但現(xiàn)在大背景是目前人工智能還處于弱人工智能時代,在業(yè)界,人工智能訓(xùn)練師也處于嘗試階段,“像剛剛提到的情感分析,還有怎么樣去賦予一個機(jī)器人性格,其實(shí)都是可以提升人性的”。Shana說,提升機(jī)器人性有兩個層次,好比人跟人對話溝通首先要理解,第二個才是表達(dá)。“理解這一塊之于機(jī)器人就是識別的準(zhǔn)確率,所以訓(xùn)練的第一步是要先提升識別準(zhǔn)確率,機(jī)器人先要知道人說的是什么,然后第二步才是表達(dá)方式。”具體到客戶需求,她會根據(jù)企業(yè)不同屬性和類別而做不同的訓(xùn)練,她舉例說,金融行業(yè)的智能客服(機(jī)器人)會更加嚴(yán)肅一些,而互聯(lián)網(wǎng)企業(yè)可能就會比較活潑,對合作伙伴式表述風(fēng)格可以更多樣,甚至可以用淘寶體,“所以針對不同的行業(yè)、不同的企業(yè),它的表述的風(fēng)格是可以不一樣的”。
為了讓智能客服更通人性,Shana還給企業(yè)客服配備了閑聊的服務(wù)功能,客戶可以跟它調(diào)侃、閑聊。“你可以問它今天天氣怎么樣,你叫什么名字,你是男生女生等一些比較有意思的問題。”在人工智能訓(xùn)練師的手筆之下,原本死板的機(jī)器增加了人性的感覺和元素,而不是只能回答專業(yè)問題。
“機(jī)器人通過敏感情感識別之后,它會根據(jù)用戶的狀態(tài),做一些情緒安撫。”她說,在這個層次上,機(jī)器人對人類語言的理解超越說的話是什么意思,而進(jìn)入第二層次——理解你的情緒。機(jī)器人從人的語音、文字當(dāng)中感知情緒,甚至感知人話語中是否有敏感的信息。她舉例說,出行行業(yè)的智能客服對車禍這類字眼或者事件會比較敏感,機(jī)器人也可以理解客戶的情緒,理解他目前的處境是否有危險。如果他有情緒的話,可以對他進(jìn)行安撫;如果遇到車禍可以幫他緊急處理。“其實(shí)還是非常通情達(dá)理的一種方式。”
“我們的閑聊功能也會不斷增加機(jī)器人的一些技能,你為什么喜歡跟這個人交流,其中一個因素就是這個人很博學(xué),假如機(jī)器人能夠回答你的問題越多,你會覺得它很聰明,然后愿意跟它交流。”Shana和其他人工智能訓(xùn)練師會增加機(jī)器人寫詩、做對聯(lián)的功能,讓它更通人性。
文科生在AI領(lǐng)域揮灑才能
在行業(yè)浸染中,Shana摸爬滾打逐漸淬煉成“老兵”。“成為人工智能訓(xùn)練師你需要具備數(shù)據(jù)分析能力、熟悉產(chǎn)品能力、溝通能力、對AI技術(shù)理解力以及行業(yè)背景知識。”Shana以文科生的身份進(jìn)入,在工作中不斷去磨練技能,特別是數(shù)據(jù)分析能力。
目前,Shana“調(diào)教”的機(jī)器人它主要應(yīng)用到客戶咨詢、新員工培訓(xùn)、還款提醒、滿意度回訪等,“客服這個領(lǐng)域就比較確定,它是很明確的一個場景。智能客服應(yīng)用最多的是金融領(lǐng)域,然后是電商。”
Shana看好人工智能訓(xùn)練師的前景。“對這個崗位的需求量肯定是會越來越大的,因?yàn)锳I時代確實(shí)已經(jīng)到來了,現(xiàn)在全行業(yè)都在嘗試AI怎么樣去落地,怎么樣去跟當(dāng)前的場景結(jié)合,這個結(jié)合都離不開技術(shù),離不開數(shù)據(jù),所以對訓(xùn)練師的需求量肯定會越來越大。同時對訓(xùn)練師的技能要求也會越來越高。”
Shana以文科生的身份“闖進(jìn)”人工智能理工科學(xué)生的天地,占據(jù)了一席之地,在人工智能訓(xùn)練師這樣一個非技術(shù)類“新職位”中,文科生有了揮灑才能的機(jī)會。
“技術(shù)這一塊確實(shí)還是理工科學(xué)生的天下,但是為算法模型提供數(shù)據(jù),是文科生更加適合一些,尤其是涉及一些對話交互這種比較細(xì)致的工作。”