阿里的追光者:每天為數(shù)億張圖片把脈 幫數(shù)十萬盲人“聽圖”

責(zé)任編輯:zhaoxiaoqin

2020-07-03 16:33:37

OCR技術(shù)的應(yīng)用并不止于為視障人群修建“盲道”,小峰和數(shù)以百萬計的商家每天會在淘寶發(fā)布超過1億張商品圖片。

聽取顧客發(fā)來的評論意見、發(fā)布最新制作的商品介紹圖片,這是淘寶店主小峰5年來每天起床后必做的兩件事。

來自浙江的小峰自幼雙目失明,2015年在淘寶開了一家專賣電子產(chǎn)品的店鋪。通過“手耳并用”的方式,小峰可以和明眼人一樣,毫無障礙地和眾多買家進行溝通交流。

這一切得益于OCR(光學(xué)字符識別)技術(shù)。在阿里達摩院讀光OCR團隊的努力下,數(shù)十萬盲人登陸淘寶時,只要手指劃過相關(guān)頁面和商品,手機就會準(zhǔn)確地讀出的信息 。

OCR技術(shù)的應(yīng)用并不止于為視障人群修建“盲道”,小峰和數(shù)以百萬計的商家每天會在淘寶發(fā)布超過1億張商品圖片。

廣告發(fā)布是否違規(guī)?商品圖片是否侵權(quán)?在每天為海量圖片“把脈”的過程中,鍛造了讀光OCR強大的能力,這項原本只專注于商品治理的安全技術(shù),逐漸進化為不同行業(yè)提供人工智能服務(wù)的全能識圖產(chǎn)品。

不久前,阿里達摩院和阿里安全成立聯(lián)合實驗室,意味著“讀光”這一高精尖技術(shù)將在更多場景落地,而在“新基建”快速發(fā)展的當(dāng)下,數(shù)字技術(shù)將展示出前所未有的普惠性。

每天為數(shù)億張圖片把脈

每天在淘寶新增的商品圖片達數(shù)億張。

如果用相紙把這些圖片打印出來,假設(shè)每張相紙厚度為0.2毫米,摞在一起的厚度超過20公里。

從這些圖片中找出違規(guī)發(fā)布的商品和信息,依靠人的肉眼,即使每秒鐘能查看一張圖片,24小時內(nèi)看完這些商品圖,需要1158人團隊不間斷持續(xù)作業(yè)才能完成。

在商品圖片內(nèi)容豐富、場景復(fù)雜多樣的狀況下,讀光OCR技術(shù)的出現(xiàn)大大提高了平臺治理的效率。

讀光OCR團隊負(fù)責(zé)人、高級算法專家永攀介紹說,“讀光”的前身是成立于2011年的“圖像把脈團隊”。

圖片說明:部分讀光OCR團隊成員合影

彼時,淘寶商品主要信息傳遞方式是圖片,消費者搜索任何商品,映入眼簾的是首先是各個搜索結(jié)果的商品主圖,這張圖片傳遞的信息可以在很大程度上影響用戶的購買判斷。

當(dāng)圖片成為搶奪消費者注意力最直接的手段,很商家把商品主圖和呈現(xiàn)文字做得異??鋸?,就像電線桿上的“牛皮蘚”廣告。

為了改善淘寶的商品呈現(xiàn),“圖像把脈團隊”上線治理“牛皮癬”的專項技術(shù),判斷商品圖片中的文字以及整體圖片是否違規(guī)。

對圖片的識別、判定的意義并不只是是否美觀和夸張。更重要的是,通過對商品發(fā)布圖片的審核,可以及時發(fā)現(xiàn)銷售假貨侵權(quán)產(chǎn)品的商家。

今年2月2日,身在重慶的永攀在藥店買口罩時,發(fā)現(xiàn)線下要點的口罩已經(jīng)被搶購一空。永攀很快意識到,大量口罩購買需求涌入線上,很多不法商家也可能會趁機混水摸魚。

與此同時,淘寶、天貓成立了“保衛(wèi)口罩小分隊”,他們的任務(wù)就是守住口罩商品上線的關(guān)口。

這一天,讀光OCR團隊緊急優(yōu)化技術(shù),確保有貨源的商家能發(fā)布商品的同時,讓疑似假冒偽劣的商品無法上線。

“由于口罩以前是個小眾產(chǎn)品,突然爆發(fā)的需求和商品發(fā)布量,讓圖片掃描以及識別的工作量非常大。”永攀回憶說,這一仗把能調(diào)用的全部服務(wù)器都用上了。有了每天檢測數(shù)億張圖片的磨礪,讀光OCR在口罩保衛(wèi)戰(zhàn)這一役圓滿的完成了任務(wù)。

在阿里安全圖靈實驗室負(fù)責(zé)人薛暉看來,讀光OCR技術(shù)在知識產(chǎn)權(quán)保護領(lǐng)域的應(yīng)用,不僅可以對商品發(fā)布進行檢測,配合其他技術(shù)的應(yīng)用,還能對制售假分子予以限制。

一名曾因店鋪售假被淘寶關(guān)店,為再上淘寶開店,偽造了8次假身份,連戶籍地址都配套換了8次。但每次都被系統(tǒng)識別攔截,無緣再上淘寶的他,終于選擇放棄。

從管理到服務(wù)的有溫度治理

2015年9月1日,新廣告法開始執(zhí)行,這為“讀光團隊”帶來了巨大的挑戰(zhàn)。

新廣告法禁用“最佳”、“最優(yōu)秀”、“世界級”、“獨家”、“史上第一”等多種“極限詞”表達。

淘寶的存量商品超過了15億個,每個商品平均有17張描述圖片,90%的商品描述都在圖片中。由于很多商家并不具備專業(yè)知識,根本無法判斷自己是否違反了廣告法。

很多商家違法了但卻不自知,不但面臨處罰,還會遭遇惡意索賠團伙的敲詐勒索。

阿里安全在集團內(nèi)部拉幾支團隊一起PK解決方案,最終“讀光團隊”接下了這個難題。

永攀回憶說,當(dāng)時統(tǒng)計發(fā)現(xiàn),淘寶存量商品圖多達數(shù)百億張,圖片上的文本內(nèi)容非常復(fù)雜,常用字體就有100多種,還有一些非常個性藝術(shù)創(chuàng)造的字體。此外,圖片中經(jīng)常會有各種透明半透明的背景,識別難度很高。

為了實現(xiàn)高效提速,“讀光團隊”做出了有別于市面通用的解決方案。

如果說外界當(dāng)時處理一張主圖需要3到5秒,處理復(fù)雜圖需要1分鐘的話,“讀光團隊”提出的解決方案可將識別圖片的平均時間降到0.25到0.3秒。產(chǎn)品上線后,所有違規(guī)圖片可以在24小時內(nèi)被處理。

一年之內(nèi),“讀光團隊”將技術(shù)能力進化到了實時處理,讓商家發(fā)布的違規(guī)圖片根本無法上線。

“當(dāng)我們的安全技術(shù)能力從單純的管控變成風(fēng)險服務(wù),可以幫助到那些無意犯錯的商家,讓違反廣告法的圖片在沒有產(chǎn)生任何影響的情況下就被攔截下線。”永攀說,通過技術(shù)打擊作惡的壞人,而讓無意犯錯的商家“少踩坑”,這是“有溫度治理”的應(yīng)有之義。

為數(shù)十萬盲人修建網(wǎng)絡(luò)盲道

在數(shù)字經(jīng)濟時代,依托人工智能技術(shù)的治理模式和經(jīng)驗,不僅在解決商業(yè)問題上發(fā)揮作用,創(chuàng)造新的商業(yè)機遇,在參與社會治理和解決各類社會問題上,提供了更多的想象空間,為社會創(chuàng)造更多新價值。

從2011年開始,“讀光團隊”為視障群體提供文字識別服務(wù)。不過,很多盲人朋友反饋依然存在理解障礙和錯誤的情況。

永攀解釋說,淘寶的圖片版式包括了廣告圖、商品圖、表格圖、圖文注解圖等,不同頁面的閱讀方式差異很大,絕不僅是把所有文字從左到右、從上到下閱讀一遍這么簡單。這就需要研究將文字以合理的順序進行組織后,為視障人士閱讀,幫助他們正常理解。

團隊一邊與浙江大學(xué)、中國殘聯(lián)合作,共同研究商品圖片無法被視力殘疾人閱讀的問題,一邊邀請盲人測試者參與研發(fā)。

2019年,“讀光團隊”開始研發(fā)和落地版式分析和閱讀順序的深度學(xué)習(xí)技術(shù),盲人商家小峰參加了無障礙工作組的測試,并以團隊成員的身份參與到優(yōu)化讀光OCR的文本語序識別算法的工作中。

“對普通人來說,新興互聯(lián)網(wǎng)技術(shù)的發(fā)展很多時候發(fā)揮著錦上添花的作用,但對盲人而言,具備著雪中送炭的意義,實實在在的幫助我們回歸社會、融入社會、參與社會。”小峰感慨。

圖片說明:借助手機旁白功能,視障者用耳朵購物

截至2019年,數(shù)十萬視障人士因為“讀光”團隊的努力,在淘寶享受著足不出戶,購遍全球的互聯(lián)網(wǎng)新生活。2019年雙11期間,淘寶對“盲道”進行升級后,視障人士在實現(xiàn)無障礙購物的基礎(chǔ)上,首次可以用手機在雙11參加游戲互動體驗,并得到更多實惠。

在數(shù)字時代主動尋找未來的光

2019年底,阿里達摩院與阿里安全成立聯(lián)合實驗室,讀光團隊與阿里安全圖靈實驗室實現(xiàn)了“握手”。

事實上,在日常平臺治理的業(yè)務(wù)中,兩個團隊早已并肩戰(zhàn)斗多年,聯(lián)合實驗室的負(fù)責(zé)人薛暉與永攀更是老相識了。

圖片說明:永攀(左)與薛暉(右)在阿里

兩人同畢業(yè)于浙江大學(xué)光電系,永攀是薛暉隔壁實驗室的師妹,永攀所在的實驗室為嫦娥四號探測器提供了的相機光學(xué)技術(shù),讓嫦娥四號向地球順利傳回世界上第一張近距離拍攝的月背影圖像。

在隔壁實驗室技術(shù)“上了天”的時候,薛暉正在阿里安全死磕AI圖像識別技術(shù),將其落地應(yīng)用在線下新零售場景中,兩人開玩笑地說這樣的場景恰好印證了人工智能“上天入地”的說法。

如今,兩人的愿景是讓高精尖的視覺技術(shù)在更多場景中落地。

“這個聯(lián)合實驗室要在數(shù)字化浪潮下,開拓‘AI+辦公’、‘AI+教育’等新模式,為新基建鑄就城墻;在技術(shù)上要以建設(shè)高效、通用、安全的OCR系統(tǒng)為抓手,聚焦小樣本學(xué)習(xí)、遷移學(xué)習(xí)與領(lǐng)域自適應(yīng)、模型可解釋性研究、對抗魯棒性等課題,探索下一代人工智能技術(shù),為新基建構(gòu)建安全的技術(shù)底座,這也是阿里提出的新一代安全架構(gòu)的核心理念。”薛暉為團隊規(guī)劃出了大的方向,接下來團隊的重點將聚焦在圖片、視頻治理和辦公數(shù)智化兩個方面。

薛暉說,人們在日常看到的是清朗網(wǎng)絡(luò)空間,這背后其實是安全算法團隊與違法違規(guī)圖片視頻的持續(xù)對抗。而OCR技術(shù)具有非常強的辦公屬性,如財務(wù)票據(jù)報銷、文件電子化、證件審核等,未來的辦公數(shù)智化解決方案可以輻射金融、司法、教育、醫(yī)療等行業(yè),將人們從機械的、重復(fù)性的工作中解脫出來。

“我們想要兩條線推進,為OCR技術(shù)找到對業(yè)務(wù)、社會真正有價值的新方向。”永攀說,疫情中興起的非接觸式會議和教學(xué)已經(jīng)證明,AI技術(shù)已經(jīng)改變了傳統(tǒng)的內(nèi)容生成方式。

這也是“合并”賦予讀光OCR團隊的新意義:不僅要讀光、追光,更要在數(shù)字時代主動尋找未來的光。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號