雅虎開源色情圖片檢測(cè)神經(jīng)網(wǎng)絡(luò)

責(zé)任編輯:editor004

作者:夏雪

2016-10-17 12:14:11

摘自:INFOQ

近期,雅虎剛剛開源了他們自己構(gòu)建的一套深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它專門用于自動(dòng)檢測(cè)圖片是否含有色情內(nèi)容?!安恢浪脑u(píng)估是否準(zhǔn)確,如果能允許大家上傳圖片,它打出分來讓大家評(píng)價(jià)一下效果就好了”

近期,雅虎剛剛開源了他們自己構(gòu)建的一套深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它專門用于自動(dòng)檢測(cè)圖片是否含有色情內(nèi)容。

NSFW(Not Suitable For Work)用于標(biāo)記不適合上班時(shí)間瀏覽的網(wǎng)絡(luò)內(nèi)容,它的界定其實(shí)是很主觀的,有的人反感的東西可能其他人并不覺得如何。雅虎的這個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的定位是專注于NSFW中的色情圖片。所以,該模型不適用于處理素描、文字、動(dòng)畫、暴力圖片等內(nèi)容。

對(duì)色情圖片的鑒定并不容易,所以除了技術(shù)手段之外往往都離不開人工,于是就催生了鑒黃師這樣的崗位。因?yàn)閷?duì)于機(jī)器來說,圖片都是些RGB的像素罷了,不論是花草樹木,還是香車美女,擺在無欲無求的機(jī)器面前并無差異。而人,卻對(duì)它有天生識(shí)別能力。美國(guó)前大法官波特·斯圖爾特就有這樣一句名言:“ 我看到它,才知道它是不是”。因此,機(jī)器是得向人來學(xué)習(xí)如何判定色情圖片的。

該神經(jīng)網(wǎng)絡(luò)使用了CaffeOnSpark ,這是一個(gè)基于Hadoop/Spark的分布式深度學(xué)習(xí)框架。雅虎已經(jīng)基于已有的數(shù)據(jù)對(duì)模型進(jìn)行了訓(xùn)練,這些數(shù)據(jù)既包括NSFW的,也包括SFW(suitable for work,適合上班時(shí)間瀏覽)的,每張圖片已明確標(biāo)記好。在通過學(xué)習(xí)之后,它會(huì)為每張待鑒定的圖片打出一個(gè)NSFW得分,表示屬于NSFW的可能性。該值范圍從0至1,小于0.2表示很有可能是安全的,大于0.8表示有很大可能是NSFW的。如下圖所示,花叢中的少女衣著保守,得分0.001,而運(yùn)動(dòng)中的女孩和海邊的男子雖暴露了部分肢體,但得分也僅為0.116和0.074,都未達(dá)到NSFW的標(biāo)準(zhǔn)。想了解該模型生成和訓(xùn)練的更多詳情,請(qǐng)戳這里。

雅虎建議大家在使用時(shí)選擇自己的閾值,因?yàn)閼?yīng)用場(chǎng)景和對(duì)NSFW標(biāo)準(zhǔn)的理解可能會(huì)有差異,所以開發(fā)人員最好根據(jù)自己應(yīng)用對(duì)NSFW的定義來設(shè)定評(píng)估值。

在Reddit上,大家就該模型對(duì)評(píng)估的有效性展開了討論。有人認(rèn)為:

“不知道它的評(píng)估是否準(zhǔn)確,如果能允許大家上傳圖片,它打出分來讓大家評(píng)價(jià)一下效果就好了”

而有人就此回應(yīng)說:

“我不知道你會(huì)怎么看,但我肯定不會(huì)讓人把最NSFW的圖片上傳到我的服務(wù)器上的”

出于某些原因,在公共網(wǎng)絡(luò)上放置各類NSFW圖片的確不太合適。好在雅虎已經(jīng)將此模型開源,如果各位感興趣的話,可以自己動(dòng)手實(shí)踐一下,看它給出的評(píng)估是否符合你的標(biāo)準(zhǔn)。你可以通過 雅虎的文章 了解更多詳細(xì)內(nèi)容,模型可以在 GitHub 上下載。如果你想要搭建自己的色情圖片識(shí)別系統(tǒng),必須要自己提供數(shù)據(jù),這可能對(duì)大家來說不算什么難事。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)