在開始之前,最好先詢問自己以下三個(gè)問題:
· “此機(jī)器學(xué)習(xí)模型的準(zhǔn)確性如何?”
· “培訓(xùn)時(shí)間多長(zhǎng)?”
· “需要多少培訓(xùn)數(shù)據(jù)?”
用戶通常想知道新模型的裝載需要多長(zhǎng)時(shí)間,以及它的性能或推廣效果如何,他們想要一種根據(jù)性能衡量總體成本的方法。但遺憾的是,以上問題的答案并不能解決這個(gè)問題。
它們甚至具有誤導(dǎo)性。
模型訓(xùn)練只是冰山一角。獲取合適的數(shù)據(jù)集以及清理、存儲(chǔ)、聚合、標(biāo)記、建立可靠的數(shù)據(jù)流和基礎(chǔ)架構(gòu)管道需要巨大成本,但大多數(shù)用戶和AI / ML公司都忽略了這一點(diǎn)。
根據(jù)最近的研究,公司在AI / ML項(xiàng)目中將80%以上的時(shí)間用于數(shù)據(jù)準(zhǔn)備和工程業(yè)務(wù)。換句話說,如果將大部分精力放在構(gòu)建和訓(xùn)練模型上,則總的工程工作量和成本可能是預(yù)計(jì)的五倍。
此外,機(jī)器學(xué)習(xí)模糊了用戶和軟件開發(fā)商之間的界線。
AIaaS或MLaaS已經(jīng)開始出現(xiàn)。隨著數(shù)據(jù)的增長(zhǎng),云端模型不斷改進(jìn)。也正因如此,MLaaS的業(yè)務(wù)比SaaS更具挑戰(zhàn)性。
機(jī)器模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí),因此缺乏高質(zhì)量的數(shù)據(jù),模型將無法良好運(yùn)行。在大多數(shù)情況下,用戶并不了解生成或注釋適當(dāng)數(shù)據(jù)集的最佳做法。
當(dāng)系統(tǒng)性能不佳時(shí),用戶往往會(huì)歸咎于模型。因此,AI / ML公司通?;ㄙM(fèi)大量時(shí)間和資源進(jìn)行培訓(xùn)并與用戶合作,以確保數(shù)據(jù)質(zhì)量,這成為AI公司與其客戶之間的共同責(zé)任。
例如,要訓(xùn)練生產(chǎn)線上的缺陷檢查模型,計(jì)算機(jī)視覺公司需要與客戶合作,以正確的角度和位置安裝攝像頭,檢查分辨率和幀頻,確保每個(gè)場(chǎng)景都有足夠的正負(fù)面訓(xùn)練樣本。
某些時(shí)候機(jī)器人或車輛需要人為操作,因此使用機(jī)器人技術(shù)或自動(dòng)駕駛汽車應(yīng)用程序進(jìn)行數(shù)據(jù)收集更加耗時(shí)且成本更高。
即使進(jìn)行了培訓(xùn)課程,且看完了所有用戶手冊(cè)和指南,你仍然不能完全控制用戶生成的數(shù)據(jù)。一家機(jī)器視覺相機(jī)公司告訴我,他們的工程師會(huì)手動(dòng)驗(yàn)證所有數(shù)據(jù)以確保其完整輸入。
所有這些經(jīng)常被忽視的額外培訓(xùn)、手動(dòng)檢查、數(shù)據(jù)清理和標(biāo)記任務(wù)會(huì)給AI公司帶來巨大的間接費(fèi)用。這就是為什么要建立更具可擴(kuò)展性的AI/ML項(xiàng)目的原因。那么該如何解決這個(gè)問題呢?
1. 可擴(kuò)展性是關(guān)鍵。
確定大量客戶愿意購(gòu)買的正確用例,并使用相同的模型體系結(jié)構(gòu)解決。最后,你需要在沒有標(biāo)準(zhǔn)產(chǎn)品的情況下為不同的公司構(gòu)建和訓(xùn)練不同的模型。
2. 盡量提供自助服務(wù)。
盡可能使培訓(xùn)和數(shù)據(jù)管道自動(dòng)化,以提高運(yùn)營(yíng)效率并減少對(duì)體力勞動(dòng)的依賴。相比較內(nèi)部工具或自動(dòng)化,公司更看重開放客戶可見的功能,但是前者很快就會(huì)收到回報(bào),你需要確保為內(nèi)部流程自動(dòng)化分配足夠的資源。
3. 最后,確定并跟蹤成本,尤其是隱性成本。
工程師花費(fèi)了多少時(shí)間清理、過濾或聚合數(shù)據(jù)?他們花費(fèi)多少時(shí)間來確保第三方正確完成注釋?他們需要多久幫助客戶設(shè)置環(huán)境并正確收集數(shù)據(jù)?其中有多少可以自動(dòng)化或外包?
練級(jí)之路可能艱難而漫長(zhǎng),但有些問題是遲早都需要面對(duì)的。