如何走過人工智能轉(zhuǎn)型的轉(zhuǎn)折點(diǎn)

責(zé)任編輯:cres

作者:Jun Gu

2020-11-03 11:11:43

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

在談到開源人工智能項(xiàng)目時(shí),人們通常會(huì)想到Google TensorFlow、PyTorch等模型框架項(xiàng)目,由于模型框架是訓(xùn)練人工智能模型的關(guān)鍵組成部分,因此這些項(xiàng)目通常最受關(guān)注。但是人工智能并不是一種單一的技術(shù),而是一個(gè)復(fù)雜的技術(shù)領(lǐng)域,涉及多個(gè)子領(lǐng)域和許多不同的組成部分。

Milvus是一個(gè)開源項(xiàng)目,可以為開源人工智能生態(tài)系統(tǒng)提供數(shù)據(jù)服務(wù)功能。人們需要了解如何從中受益。
 
在談到開源人工智能項(xiàng)目時(shí),人們通常會(huì)想到Google TensorFlow、PyTorch等模型框架項(xiàng)目,由于模型框架是訓(xùn)練人工智能模型的關(guān)鍵組成部分,因此這些項(xiàng)目通常最受關(guān)注。但是人工智能并不是一種單一的技術(shù),而是一個(gè)復(fù)雜的技術(shù)領(lǐng)域,涉及多個(gè)子領(lǐng)域和許多不同的組成部分。
 
向人工智能轉(zhuǎn)型的轉(zhuǎn)折點(diǎn)
 
一般而言,技術(shù)升級的轉(zhuǎn)折點(diǎn)是其回報(bào)遠(yuǎn)遠(yuǎn)超出成本。當(dāng)將其應(yīng)用于人工智能轉(zhuǎn)型時(shí),它將涉及一些基本因素,其中包括模型(算法)、模型推斷和數(shù)據(jù)服務(wù)。
 
在談?wù)撃P蜁r(shí),人們需要了解利用人工智能技術(shù)的期望值。如果希望采用人工智能技術(shù)來擊敗和取代人類,例如采用人工智能驅(qū)動(dòng)的對話機(jī)器人取代所有的客戶支持專家,那么對人工智能模型的需求將相當(dāng)高,并且在短期內(nèi)無法實(shí)現(xiàn)。
 
如果企業(yè)想讓客戶支持專家從單調(diào)繁瑣的日常工作中解脫出來,這意味著計(jì)劃利用人工智能技術(shù)提高人類的生產(chǎn)力和能力,那么現(xiàn)在的模型在許多情況下都能實(shí)現(xiàn)。
 
這聽起來令人鼓舞。但是關(guān)于模型的激烈爭論是,盡管一些模型可供使用,但卻沒有一個(gè)最佳的模型。那些雇傭人工智能科學(xué)家擁有這些技術(shù)發(fā)展水平(SOTA)模型的公司。如果只使用公共模型,那么會(huì)失去競爭優(yōu)勢嗎?人們對此感到困惑,因?yàn)樗麄冋J(rèn)為效率更高的模型會(huì)帶來更高的業(yè)務(wù)價(jià)值,但這種想法可能是錯(cuò)誤的。在大多數(shù)情況下,模型有效性與商業(yè)價(jià)值之間的關(guān)系既不是線性的,也不是單調(diào)遞增的。這一函數(shù)的圖形如下所示。

 
這是一個(gè)分段函數(shù)。在第一階段,在該模型在應(yīng)用程序場景中實(shí)現(xiàn)實(shí)用之前,沒有任何業(yè)務(wù)價(jià)值。在第二階段,盡管理論上更好的模型應(yīng)該具有更好的性能(響應(yīng)時(shí)間和有效性等),但在實(shí)際場景中它可能并不那么明顯。以下進(jìn)行一下了解。
 
在醫(yī)生確認(rèn)患者是否患有肺部感染之前,需要對其肺部進(jìn)行CT檢查,將生成約300張CT圖像。而經(jīng)驗(yàn)豐富的醫(yī)生將不得不花費(fèi)5~15分鐘來研究這些CT圖像。在通常情況下,如果治療的患者數(shù)量不多不會(huì)有什么問題。但是,在極端情況下(例如持續(xù)蔓延的冠狀病毒疫情),患者數(shù)量激增將讓醫(yī)生不堪重負(fù)。
 
一個(gè)好消息是,數(shù)據(jù)科學(xué)家致力通過計(jì)算機(jī)視覺技術(shù)幫助醫(yī)生。他們訓(xùn)練的模型可以在幾秒鐘內(nèi)處理成百上千的CT圖像并提供診斷建議。因此,醫(yī)生只需花費(fèi)1分鐘的時(shí)間就可以查看模型生成的結(jié)果。因此,在采用機(jī)器學(xué)習(xí)技術(shù)之前,醫(yī)生平均需要花費(fèi)10分鐘的時(shí)間才能查看一次CT掃描生成的結(jié)果,而現(xiàn)在大約需要1分鐘。生產(chǎn)率提高了近90%。
 
如果有一個(gè)更快的模型,只需要3秒鐘就可以生成結(jié)果,那會(huì)怎么樣?如果有一個(gè)更有效的模型可以將準(zhǔn)確度從80%提高到90%會(huì)怎么樣?醫(yī)生檢查的結(jié)果會(huì)更少嗎?其答案是否定的,這是因?yàn)樵撃P椭?,如果十分之一將?huì)出錯(cuò),但并不知道哪個(gè)是錯(cuò)誤的,醫(yī)生必須審查所有結(jié)果。因此不會(huì)節(jié)省更多的診斷時(shí)間。
 
此外,為了降低模型推理服務(wù)的成本,有時(shí)需要犧牲模型有效性。例如一個(gè)擁有5500萬張商標(biāo)圖片的商業(yè)智能平臺提供商,該公司希望提供一項(xiàng)服務(wù),允許用戶搜索這些商標(biāo)的所有者。用戶通過上傳商標(biāo)圖像作為輸入查詢而不是給出關(guān)鍵字來執(zhí)行搜索。
 
其背后的技術(shù)是計(jì)算機(jī)視覺,例如VGG模型。如果企業(yè)在后端服務(wù)器上運(yùn)行模型推理,則必須分配和預(yù)留數(shù)據(jù)中心的硬件資源。另一個(gè)選擇是部署一個(gè)規(guī)模更小的模型,這樣企業(yè)就可以把模型推理放在邊緣計(jì)算設(shè)備上(大多數(shù)情況下是智能手機(jī))。它肯定會(huì)降低像GPU這樣昂貴的模型推理硬件的成本。這是另一個(gè)例子,SOTA模型不可能在所有場景中都具有競爭力。
 
人們已經(jīng)處在人工智能轉(zhuǎn)型的轉(zhuǎn)折點(diǎn)。接下來的問題是,如何走過這一轉(zhuǎn)折點(diǎn),并采用人工智能技術(shù)來增強(qiáng)業(yè)務(wù)能力。
 
可用模型是先決條件。但是,如果只具有模型,也無法輕松開發(fā)人工智能程序。像傳統(tǒng)應(yīng)用程序一樣,數(shù)據(jù)服務(wù)始終是至關(guān)重要的部分??梢钥吹剑殉蔀楫?dāng)今采用人工智能的重要組成部分。這就是為什么啟動(dòng)開源項(xiàng)目Milvus來加速采用人工智能的原因。
 
采用人工智能的數(shù)據(jù)挑戰(zhàn)
 
一些企業(yè)嘗試通過人工智能技術(shù)處理的大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化的,因此期望Milvus項(xiàng)目為非結(jié)構(gòu)化數(shù)據(jù)服務(wù)提供堅(jiān)實(shí)的基礎(chǔ)。
 
人們通常將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)這三種。結(jié)構(gòu)化數(shù)據(jù)包括數(shù)字、日期、字符串等。半結(jié)構(gòu)化數(shù)據(jù)通常包括特定格式的文本信息,例如各種計(jì)算機(jī)系統(tǒng)日志。非結(jié)構(gòu)化數(shù)據(jù)包括圖片、視頻、語音、自然語言和任何其他不能由計(jì)算機(jī)直接處理的數(shù)據(jù)。
 
據(jù)估計(jì),非結(jié)構(gòu)化數(shù)據(jù)至少占數(shù)字?jǐn)?shù)據(jù)世界的80%。例如,人們可能每天與其家人、朋友或同事發(fā)送和接收數(shù)kB的短信。但即使只在移動(dòng)設(shè)備上拍一張照片,例如采用具有1200萬像素的攝像頭iPhone 11,一張照片高達(dá)幾兆字節(jié)。那么如果拍攝720p分辨率的視頻呢?
 
一些企業(yè)開發(fā)了關(guān)系數(shù)據(jù)庫、大數(shù)據(jù)等技術(shù)來高效地處理結(jié)構(gòu)化數(shù)據(jù)。而半結(jié)構(gòu)化數(shù)據(jù)可以通過基于文本的搜索引擎Lucene、Solr、Elastic search等進(jìn)行處理,但是對于大量的非結(jié)構(gòu)化數(shù)據(jù),在以往并沒有有效的分析方法。直到深度學(xué)習(xí)技術(shù)在近年來興起,非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)得到了快速的發(fā)展。
 
非結(jié)構(gòu)化數(shù)據(jù)服務(wù)
 
嵌入是深度學(xué)習(xí)的一個(gè)術(shù)語,是指通過模型將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為特征向量。由于特征向量是數(shù)字?jǐn)?shù)組,因此很容易由計(jì)算機(jī)處理。因此,非結(jié)構(gòu)化數(shù)據(jù)的分析可以轉(zhuǎn)換為矢量計(jì)算。
 
一個(gè)最普遍的論點(diǎn)是特征向量似乎是非結(jié)構(gòu)化數(shù)據(jù)處理的中間結(jié)果。那么是否有必要建立通用的矢量相似度搜索引擎?是否應(yīng)將其包括在模型中?
 
專家認(rèn)為,特征向量不僅僅是中間結(jié)果。它是深度學(xué)習(xí)場景中非結(jié)構(gòu)化數(shù)據(jù)的知識表示。這也稱為特征學(xué)習(xí)。
 
另一個(gè)論點(diǎn)是,由于特征向量還包含數(shù)值,為什么不對現(xiàn)有的數(shù)據(jù)處理平臺(例如數(shù)據(jù)庫)或計(jì)算框架(例如Spark)執(zhí)行向量計(jì)算。
 
確切地說,向量由數(shù)字列表組成。這導(dǎo)致矢量計(jì)算和數(shù)值運(yùn)算之間的兩個(gè)重大區(qū)別。
 
首先,向量和數(shù)字最頻繁的運(yùn)算是不同的。對于數(shù)字來說,加減乘除是最常見的運(yùn)算。但是對于向量,最常見的要求是計(jì)算相似度。人們會(huì)看到,在這里給出了計(jì)算歐幾里德距離的公式,向量的計(jì)算比普通的數(shù)值計(jì)算要高得多。
 
其次,數(shù)據(jù)的索引組織不同。在兩個(gè)數(shù)字之間,可以互相比較數(shù)值。這樣就可以像B樹那樣根據(jù)算法來創(chuàng)建數(shù)字索引。但是在兩個(gè)向量之間,無法進(jìn)行比較。只能計(jì)算它們之間的相似性。因此矢量索引通常是基于近似最近鄰神經(jīng)網(wǎng)絡(luò)算法。
 
由于這些顯著的差異,傳統(tǒng)的數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)很難滿足矢量分析的要求。他們支持的算法和他們關(guān)注的場景都是不同的。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號