五月丁香六月婷手机网,500柠檬导航大全

雅虎開源色情圖片檢測(cè)神經(jīng)網(wǎng)絡(luò)

責(zé)任編輯：editor004

作者：夏雪

2016-10-17 12:14:11

摘自：INFOQ

近期，雅虎剛剛開源了他們自己構(gòu)建的一套深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，它專門用于自動(dòng)檢測(cè)圖片是否含有色情內(nèi)容?！安恢浪脑u(píng)估是否準(zhǔn)確，如果能允許大家上傳圖片，它打出分來讓大家評(píng)價(jià)一下效果就好了”

近期，雅虎剛剛開源了他們自己構(gòu)建的一套深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，它專門用于自動(dòng)檢測(cè)圖片是否含有色情內(nèi)容。

NSFW（Not Suitable For Work）用于標(biāo)記不適合上班時(shí)間瀏覽的網(wǎng)絡(luò)內(nèi)容，它的界定其實(shí)是很主觀的，有的人反感的東西可能其他人并不覺得如何。雅虎的這個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的定位是專注于NSFW中的色情圖片。所以，該模型不適用于處理素描、文字、動(dòng)畫、暴力圖片等內(nèi)容。

對(duì)色情圖片的鑒定并不容易，所以除了技術(shù)手段之外往往都離不開人工，于是就催生了鑒黃師這樣的崗位。因?yàn)閷?duì)于機(jī)器來說，圖片都是些RGB的像素罷了，不論是花草樹木，還是香車美女，擺在無欲無求的機(jī)器面前并無差異。而人，卻對(duì)它有天生識(shí)別能力。美國(guó)前大法官波特·斯圖爾特就有這樣一句名言：“ 我看到它，才知道它是不是”。因此，機(jī)器是得向人來學(xué)習(xí)如何判定色情圖片的。

該神經(jīng)網(wǎng)絡(luò)使用了CaffeOnSpark ，這是一個(gè)基于Hadoop/Spark的分布式深度學(xué)習(xí)框架。雅虎已經(jīng)基于已有的數(shù)據(jù)對(duì)模型進(jìn)行了訓(xùn)練，這些數(shù)據(jù)既包括NSFW的，也包括SFW（suitable for work，適合上班時(shí)間瀏覽）的，每張圖片已明確標(biāo)記好。在通過學(xué)習(xí)之后，它會(huì)為每張待鑒定的圖片打出一個(gè)NSFW得分，表示屬于NSFW的可能性。該值范圍從0至1，小于0.2表示很有可能是安全的，大于0.8表示有很大可能是NSFW的。如下圖所示，花叢中的少女衣著保守，得分0.001，而運(yùn)動(dòng)中的女孩和海邊的男子雖暴露了部分肢體，但得分也僅為0.116和0.074，都未達(dá)到NSFW的標(biāo)準(zhǔn)。想了解該模型生成和訓(xùn)練的更多詳情，請(qǐng)戳這里。

雅虎建議大家在使用時(shí)選擇自己的閾值，因?yàn)閼?yīng)用場(chǎng)景和對(duì)NSFW標(biāo)準(zhǔn)的理解可能會(huì)有差異，所以開發(fā)人員最好根據(jù)自己應(yīng)用對(duì)NSFW的定義來設(shè)定評(píng)估值。

在Reddit上，大家就該模型對(duì)評(píng)估的有效性展開了討論。有人認(rèn)為：

“不知道它的評(píng)估是否準(zhǔn)確，如果能允許大家上傳圖片，它打出分來讓大家評(píng)價(jià)一下效果就好了”

而有人就此回應(yīng)說：

“我不知道你會(huì)怎么看，但我肯定不會(huì)讓人把最NSFW的圖片上傳到我的服務(wù)器上的”

出于某些原因，在公共網(wǎng)絡(luò)上放置各類NSFW圖片的確不太合適。好在雅虎已經(jīng)將此模型開源，如果各位感興趣的話，可以自己動(dòng)手實(shí)踐一下，看它給出的評(píng)估是否符合你的標(biāo)準(zhǔn)。你可以通過雅虎的文章了解更多詳細(xì)內(nèi)容，模型可以在 GitHub 上下載。如果你想要搭建自己的色情圖片識(shí)別系統(tǒng)，必須要自己提供數(shù)據(jù)，這可能對(duì)大家來說不算什么難事。

雅虎 NSFW