人工智能背后的“農(nóng)民工”——數(shù)據(jù)標注員

責任編輯:zsheng

2018-07-29 10:29:11

摘自:AI時間

亨利·福特曾經(jīng)說,“我雇的明明是兩只手怎么卻來了一個人?!?/p>

亨利·福特曾經(jīng)說,“我雇的明明是兩只手怎么卻來了一個人。”

現(xiàn)在,廣義的工業(yè)機器人就是能夠?qū)崿F(xiàn)自動化控制、可重復編程的多功能機械手,并具有三個或三個以上可自由編程的運動軸,看上去就是人的上肢的簡化組合。

這還不夠。

在智能時代,AI等新技術(shù)實際就在幫資本家實現(xiàn)他們原本的夢想……

按照經(jīng)濟學通識,即“生產(chǎn)消費再生產(chǎn)”理論,如果一個工業(yè)體只有生產(chǎn)而無人消費,其結(jié)果就是周期性生產(chǎn)過剩,繼而導致經(jīng)濟危機。

這種生產(chǎn)過剩不是絕對過剩而是相對過剩,即相對于勞動人民有支付能力的需求和資本價值增值的需要而言的過剩。

一般表現(xiàn)是: 商品大量積壓,生產(chǎn)銳減,工廠大批倒閉,工人大量失業(yè),信用關(guān)系嚴重破壞,整個社會經(jīng)濟陷入極端混亂和癱瘓之中。

馬克思在《1857-1858年經(jīng)濟學手稿》認為:資本主義生產(chǎn)的目的不是為了消費,而是為了追求利潤的最大化。

這便是資本主義的根本矛盾:社會化大生產(chǎn)與生產(chǎn)資料私有制之間的矛盾 。

那么在AI如火如荼的時代,這個矛盾會加劇嗎?答案來自貴州。

你在故宮修文物,我在貴州做標注

位于貴州貴安新區(qū)的大數(shù)據(jù)庫災備中心機房內(nèi),有著一根特殊的網(wǎng)絡(luò)虛擬專線,這條專線跨越了北京與貴州之間2200多公里的距離,實現(xiàn)了國家與貴州災備中心數(shù)據(jù)的同步傳輸和異地備份。這里是國務(wù)院欽定的大數(shù)據(jù)中心。

資本家們聞著味道趕來,既是政治正確,也是商業(yè)理性使然。

馬云說,30年前你錯過廣州,20年前你錯過杭州,現(xiàn)在不要再錯過貴州。于是他在香港搞起了區(qū)塊鏈支付。

馬化騰說,貴州山多水多,空氣涼爽,適合放服務(wù)器。簡單點說就是省電,直白點說是省錢。

再直白點說,貴州的數(shù)據(jù)支持很便宜,數(shù)據(jù)標注更便宜。

2018年貴州省平均工資5200元,數(shù)據(jù)標注師僅為4200元。如果是職校招的實習生,2000塊就可以打發(fā)。他們驅(qū)動著光鮮亮麗的無人汽車在北京的五環(huán)上被交警開罰單,卻很有可能買不起B(yǎng)站的大會員。

這是事實,無需反駁。

然而盡管他們收入微薄,但他們的老板還嫌他們干的太少。

貴州夢動科技有限公司的項目經(jīng)理胡定祥,覺得自己的生意成本太高,于是又兼任了貴州盛華職業(yè)技術(shù)學院的老師。這樣他就可以把自己的學生販賣到數(shù)據(jù)標注工廠里賺他們的血汗錢了。

事實上他們就是這么做的。

 

 

500人團隊,全職只有十一二個??梢?,很強,很互聯(lián)網(wǎng)。

 

 

 

 

“上課就是上班,老師就是經(jīng)理。”胡定祥笑著說。福特都不敢這么說。

那一刻,他的靈魂如福特附體,眼睛里閃爍著人性的光輝。

1914年1月5日,當時任CEO的福特拍板決定,公司幾千名員工每天工作9小時可以得到5美元,比之前的2.38美元足足高了一倍多,整個商界都為之震驚。

一個世紀以后,中國的互聯(lián)網(wǎng)公司選擇在欠發(fā)達地區(qū)的貴州,用低于當?shù)仄骄べY數(shù)倍的薪水,威逼利誘在校學生替資本家做數(shù)據(jù)標注??梢裕軓?,很互聯(lián)網(wǎng)。

利潤之下,別無完卵

校企合作存在隱患。企業(yè)追求利潤無可厚非,學校也追求利潤就是傷天害理。

這樣的事情不是沒有發(fā)生。

2013年10月,央視《新聞周刊》曝光了西安工業(yè)大學北方信息工程學院的學生,應學校要求前往富士康代工廠實習。雖然實習期間,有兩三千元的工資,但他們需要每日連續(xù)工作11小時,有的學生甚至被累到流鼻血。而且學生沒有反抗的余地,這是由學校與富士康簽訂的協(xié)議,并且是學校開設(shè)的“社會實踐課”,而且是有著6個學分的必修課。

同年11月,同樣是在英國《金融時報》就有報道過。有學生向媒體反映稱,超過1000名同學曾在山東煙臺的富士康工廠從事基礎(chǔ)工作,并表示,該“實習”為學校的必修課。

次年8月25日,一位95后網(wǎng)友“虎誠”在網(wǎng)上發(fā)文《富士康實習的生活和工作經(jīng)驗》,提到了自己和大多數(shù)實習生一樣,為了完成學校的實習任務(wù),被安排到山東煙臺富士康實習的生活。

文章最后呼吁稱:“在富士康工作靠體力賺錢,適合年輕人干,沒有文化沒有技能,只有體力可以干。我寫的是自己在富士康三個月實習的感受,建議學生不要進去,你們還年輕要多學習知識和專業(yè)技能,進去就是浪費青春。”

那一年,富士康16連跳震驚海內(nèi)外。盡管如此,每天仍然有數(shù)千人在深圳龍華富士康門口排隊,尋求一份月薪5000加班14個小時的工作。

數(shù)據(jù)標注員小張說,他感覺自己是流水線工人,這個工廠是富士康。

“人工智能就像是一個孩子,標注好的圖片就像是孩子的食物,而我們就是制作食物的人,最苦最累的我們做了,成名的只是那些制造孩子的人。”小張底薪和加班費總共3800塊一個月,同在貴安新區(qū)的富士康,基本工資+加班費+補助是5000塊。

以人工智能之形,行鴻海精密之實

他的判斷沒有錯。

在人工智能灼熱與閃亮的背后,數(shù)據(jù)標注產(chǎn)業(yè),作為做基礎(chǔ)的支撐,卻顯得格外粗糲與拙樸。

在極客公園一篇名為《揭秘人工智能風口下的數(shù)據(jù)標注生意:一批數(shù)字富士康的誕生?》的文章中,某自動駕駛創(chuàng)業(yè)公司數(shù)據(jù)標注負責人經(jīng)常私底下開玩笑說,這就是個「血汗工廠」。

他還能開的起玩笑?

以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求,是來自河北、河南、山東、山西等周邊省份的職業(yè)技術(shù)學校的學生。

通常在北京,一張圖片需要付給標注員一毛。但數(shù)據(jù)標注公司瑪達科技公司 CEO 任樹亮認為這是一個勞動密集型產(chǎn)業(yè),一毛錢太貴了。

“我們還有按厘算的呢。”任樹亮用一個改革開放前的常用數(shù)量單位,把光鮮的AI產(chǎn)業(yè)一下子拉到了土里。

“「負責靜態(tài)物體檢測/場景識別/OCR 文字識別,負責人工智能與自動作業(yè)探索」這是百度招聘圖像識別與人工智能算法工程師的工作職責描述,而「扎實的數(shù)學基礎(chǔ),掌握 C/C++和 Python語言, 掌握 OpenCV,掌握機器學習基本算法……」是對應聘者的要求。”

但實際上,這是一份只要會用鼠標就能干的工作。

百度經(jīng)常干這樣的事。比如他們的HR會把電話銷售包裝成“市場顧問”,其實只是個打騷擾電話的。僅此而已。

“方言標注這一塊,沒上過學的老農(nóng)可能比清華碩士標的更準。”

 

 

用29點法標注的人臉頭像

教無人車學會認路,教自己學會失業(yè)

“即使是被替代,數(shù)據(jù)標注師也將是最后一批被替代的人。”標注公司老板杜霖說。

他在說謊。

讓杜霖工廠里的廉價勞動力失業(yè)的方法有很多種:

1.深度學習技術(shù)突破,可以自行數(shù)據(jù)標注。

 

 

2011年,郭臺銘郭總裁宣布:三年內(nèi),富士康要添置一百萬臺機器人。2016年富士康深圳員工從40萬銳減到10萬。

今年2月郭臺銘宣布,富士康人工智能業(yè)務(wù)將在 5年內(nèi)投入21億。5年前,富士康因為跳樓不斷,郭老板忍痛割愛,給員工的基本工資漲了200塊。看起來郭老板更喜歡機器人。

數(shù)據(jù)標注行業(yè)會不會像富士康一樣用機器替代人工?這要看李彥宏馬化騰們想把自己的AI生意做得有多大。做得越大,數(shù)據(jù)需求量也就越大,人工成本卻逐年上升。這意味著一旦人工成本高于替代人工的機器研發(fā)成本之后,相信我,商人們是不會要臉的。這是商業(yè)理性。

2.數(shù)據(jù)行業(yè)持續(xù)競爭,標注模型會走向開源。

“開源是罪惡的。”

某數(shù)據(jù)公司高層認為,商業(yè)競爭才是決定這部分人不會取代的關(guān)鍵因素。

每家公司都有自己的數(shù)據(jù)標注需求,并且他們暫時不會公開自己的模型,就像在互聯(lián)網(wǎng)之初大家都不會開源自己的代碼一樣。

可能到某個節(jié)點大家都公開自己的數(shù)據(jù)、模型后這部分人才會面對失業(yè)的擔憂。

3.AI泡沫過后,資本追逐新風向

人工智能并不是新鮮事物,早在1956年的達特茅斯會議被公認為是人工智能的起源。而50年后當年的會議者們重聚,看著照片中白發(fā)蒼蒼的人工智能開拓者與奠基者,不禁感慨萬千。

 

 

算起來人工智能經(jīng)歷了三次熱潮,但熱潮退去往往一地雞毛。

總結(jié)起來,如圖所示

 

 

現(xiàn)在人們認為深度學習+大規(guī)模計算+大數(shù)據(jù)=人工智能,并對這個公式深信不疑,如同20年前人們對專家系統(tǒng)深信不疑,如同50年前人們對圖靈深信不疑。

后來人們發(fā)現(xiàn),僅僅在語音識別這個領(lǐng)域,依賴語言學家的專家系統(tǒng)失效了,計算機科學家和數(shù)學家通過統(tǒng)計建模的方法更容易獲得成功。

然而在最近幾年,學術(shù)界發(fā)現(xiàn)人工智能不應該是個數(shù)學問題,應該是個生物學問題。

“既然要學人腦的思維方式,為什么不去研究人腦?”霍金斯在《論智能》中說道。

 

 

從表中可以看出,如果是基于統(tǒng)計建模的人工智能,那么數(shù)據(jù)標注這個行業(yè)會和整個人工智能產(chǎn)業(yè)同生共死,因為數(shù)據(jù)是AI的石油,人類數(shù)據(jù)標注師是AI的老師,他教會機器認路,認識貓貓狗狗。

但如果建立在生物學基礎(chǔ)上的人工智能理論可以突破并且落地,那么數(shù)據(jù)標注與否并不重要。比如你不用把你旁邊同事摁在桌子上在他臉上畫29個點才能記住他。一回生二回熟,這是人腦的思考方式。

這個時候,數(shù)據(jù)標注師這個稱呼,可能只有在歷史文獻中才能找得到了。

人口紅利的本質(zhì)是低成本剝削。而在中國進入人口紅利拐點00后比80后少生了7200萬的大背景下,富士康使用機器人或許是無奈之舉。但鴻海精密自1974年成立以來,已經(jīng)在大陸吃了40年人口紅利,夠本了。

只是作為數(shù)據(jù)富士康一員的數(shù)據(jù)標注師們,還是燒燒香保佑人工智能可以再火40年吧。

怕只怕,我們以后想被人壓榨都沒有這個機會了。

吹牛誰不會,落地看真章

今年年初,李開復說2018年是AI泡沫破裂之年.。

人工智能領(lǐng)域的權(quán)威專家、卷積神經(jīng)網(wǎng)絡(luò)的發(fā)明者、Facebook首席AI科學家Yann LeCun在網(wǎng)絡(luò)上表達了贊同,并補充評論道:

“(人工智能泡沫將破)確實如此。李開復提到的泡沫就是指有些公司許下了過高的承諾,但是今年要不了多久他們的錢就花完了。”

斯坦佛大學人工智慧實驗室主任李飛飛說法稱,AI雖是個“真貨”,但也在許多隨意和缺乏嚴謹性的交流或展示中被強烈地夸大,進而影響政、商、投資者。

人工智能火到什么程度?

完成C輪3.8億元融資的依圖科技創(chuàng)始人有過這樣的描述:“AlphaGo之后,我們從3月份開始融資,4月份(估值)可以加一億美元,5月份可以再加一億美元,6月份可以再加一億美元上去。我什么都沒干就可以這樣。”

什么都不干,手擁概念估值就不斷飆升,這把人工智能的火,咋看上去有些虛呀!俗話說,物極必反,人工智能現(xiàn)在如日中天,總有給人一種不真實的感覺。

人工智能虛火的另一種表述,就是人工智能市場泡沫的泛濫。如今的人工智能,就跟20年前創(chuàng)業(yè)者們名片前面加個“WWW”,后面加個“.com”,馬上就光環(huán)籠罩一般。

當投資人和科學家意識到了泡沫的存在,產(chǎn)業(yè)界的反應非常劇烈。

新經(jīng)濟 100 人 CEO 李志剛演講中大膽預測:人工智能領(lǐng)域當前存在巨大泡沫,未來兩三年,95% 以上的人工智能創(chuàng)業(yè)公司要倒閉。

李志剛認為人工智能存在泡沫主要有兩大原因:

一是前提不足?!笡]有海量大數(shù)據(jù),人工智能就是扯淡?!鼓壳罢嬲拇髷?shù)據(jù)仍然被少量巨頭和政府職能部門掌握。同時,作為獲取大數(shù)據(jù)前提的「云計算」剛剛起步?!笡]有云計算,沒有大數(shù)據(jù),人工智能無從談起?!?/p>

二是商業(yè)化滯后。談及人工智能商業(yè)化滯后問題,李志剛講述了一種悲劇模式:不少人工智能公司在產(chǎn)品還沒上市時就估值 5 億美元——招不到專家,只好去美國找谷歌、微軟的人——外國人干兩三年,帶著兩三千萬人民幣的高薪走了——企業(yè)垮掉。

自去年以來,已有50多家AI公司倒閉,其中不乏融資數(shù)億的明星公司。

 

 

這是個什么概念?

騰訊科技報道,2017年已經(jīng)有60家P2P公司歇業(yè),近4成虧損。人工智能創(chuàng)業(yè)公司的倒閉數(shù)量都快趕上P2P了,不能不讓人擔心。

“擔心又有什么用呢?”

做過室內(nèi)裝修的何軍,在2017年底投入十萬積蓄作為啟動成本,在河南周口成立了一個40人團隊的數(shù)據(jù)工作室。他2018年的最大計劃,就是“爭取接到一手項目”。

“利潤其實不高”,何軍一邊抖著腿,一邊掰著手指頭細細算賬,“你看啊,一個拉框平均4分錢,一個員工一天能做大約4500個,一共180塊。過關(guān)率90%,再除去審核的成本,再給每個標注員每天發(fā)110元左右的工資,平均下來工作室每天也就從每個人身上賺30塊吧。”何軍第一個月虧了本,第二個月勉強持平。

其實說老實話,無需同情數(shù)據(jù)標注這個行業(yè),也不必擔心人工智能是否有泡沫。你不必訝異更無須歡喜,在AI面前,我們都是始作俑者。

如同正在看這篇文章的你,不知道在微信后臺已經(jīng)被騰訊的AI打了多少個標簽,被蘋果的“云上貴州”拉了多少個數(shù)據(jù)標注的紅色框框,被數(shù)據(jù)堂賣了多少條信息了。

 

 

別想了,真的,人間不值得。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號