CVPR作為行業(yè)最頂級的研究型會議,每年收錄的論文均來自計(jì)算機(jī)視覺領(lǐng)域頂級團(tuán)隊(duì),代表著國際最前沿的科研技術(shù),并指引著計(jì)算機(jī)視覺領(lǐng)域未來的研究方向。今年收錄的論文,主要涵蓋深度學(xué)習(xí)優(yōu)化原理、視覺對抗學(xué)習(xí)、人臉建模與識別、視頻深度理解、行人重識別、人臉檢測等熱門及前沿技術(shù)領(lǐng)域。
金山云金睛算法團(tuán)隊(duì)與合作高校聯(lián)名發(fā)表的三篇論文,對神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的監(jiān)督方式進(jìn)行了深入的探討,涵蓋教師-學(xué)生模型監(jiān)督方式、自監(jiān)督學(xué)習(xí)、大規(guī)模X光機(jī)彩色圖片的弱監(jiān)督學(xué)習(xí)開發(fā)三個方面。此次論文被CVPR收錄,代表著金山云金睛在神經(jīng)網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)領(lǐng)域已達(dá)到國際一流水平。
“金睛”基于金山云強(qiáng)大的云計(jì)算基礎(chǔ)資源能力和海量數(shù)據(jù)積累,專注于圖像識別、語音識別、多模態(tài)視頻分析、文本識別、人臉識別、行人車輛識別等人工智能領(lǐng)域的研究,提供跨行業(yè)、多場景的AI解決方案。目前,金山云金睛算法團(tuán)隊(duì)已經(jīng)與中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院、中科院自動化所模式識別實(shí)驗(yàn)室、中科院計(jì)算機(jī)所智能信息處理重點(diǎn)實(shí)驗(yàn)室等多個全球頂級人工智能實(shí)驗(yàn)室建立了長期的戰(zhàn)略合作關(guān)系。“金睛”穩(wěn)定的高精尖研發(fā)團(tuán)隊(duì)、豐富的產(chǎn)品運(yùn)營經(jīng)驗(yàn)為金山云AI服務(wù)提供了充足的技術(shù)保證和發(fā)展動能。
附:金山云金睛入選CVPR2019的論文節(jié)選:
“Snapshot Distillation: Teacher-Student Optimization in One Generation”
《快照蒸餾:單模型訓(xùn)練下完成教師-學(xué)生優(yōu)化》
本文介紹了第一種能夠在訓(xùn)練單個模型的條件下完成教師-學(xué)生優(yōu)化的方法——快照蒸餾(Snapshot Distillation)。該方法的核心環(huán)節(jié)十分直觀:在單個模型的訓(xùn)練過程中,我們從早期樣本遍歷后的模型 (教師模型) 提取有用信息對后期遍歷中的模型 (學(xué)生模型) 進(jìn)行監(jiān)督訓(xùn)練。與此同時,該方法保證教師和學(xué)生模型的神經(jīng)網(wǎng)絡(luò)差異性,來防止欠擬合問題的發(fā)生。在實(shí)現(xiàn)快照蒸餾算法時,我們采用余弦函數(shù)學(xué)習(xí)率,將整個訓(xùn)練過程分為若干周期,在每一周期結(jié)束時提取模型快照(snapshot),并在新的周期迭代中用其提供監(jiān)督信息。模型快照作為教師模型,其輸出信息被模糊化處理以提供有益監(jiān)督。在基本的圖像分類數(shù)據(jù)集上,例如CIFAR100和ILSVRC2012,快照蒸餾在不引入過多的計(jì)算消耗情況下,實(shí)現(xiàn)了持續(xù)的性能提升。此外,我們通過Pascal VOC上的轉(zhuǎn)換實(shí)驗(yàn),驗(yàn)證了經(jīng)過快照蒸餾預(yù)訓(xùn)練的模型,同樣可以提高其在對象檢測和語義分割任務(wù)中的性能。
“Iterative Reorganization with Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning”
《基于求解任意拼圖問題的自監(jiān)督學(xué)習(xí)方法》
本文提出一種適用于任意網(wǎng)格尺寸與維度的“拼圖”問題的新方法,同時提出了一個基本且具有普遍意義的原則,即在無監(jiān)督場景中較弱的信息更容易被學(xué)習(xí),且具有更好的可遷移性。對于“拼圖”問題,本文以迭代的方式逐步調(diào)整圖像塊的順序直到收斂,而不試圖一步解決。每一步都通過組合圖像塊中抽取的一元和二元特征,得到表示當(dāng)前布局正確性的代價函數(shù)。通過考慮布局之間的聯(lián)系,本文方法以更合理的方式學(xué)習(xí)視覺信息。其有效性可從兩方面得到驗(yàn)證。首先,它能夠解決現(xiàn)有方法難以處理的任意網(wǎng)格尺寸與維度的“拼圖”問題,包括高維“拼圖”問題。第二,它提供一種可靠的網(wǎng)絡(luò)初始化方法,幫助圖像分類、目標(biāo)檢測和語義分割等視覺識別任務(wù)取得更好的性能。
“SIXray: A Large-scale Security Inspection X-ray Benchmark for Prohibited Item Discovery in Overlapping Images ”
《SIXray : 大規(guī)模X光違禁品安檢數(shù)據(jù)集》
本文針對X光安檢數(shù)據(jù)集,提出了類別均衡的分層細(xì)化模型處理數(shù)據(jù)集存在的問題。該模型假設(shè)每個輸入圖片都是從混合分布中采樣得到的,而深層網(wǎng)絡(luò)需要一個迭代過程來精確地推斷圖像內(nèi)容。我們將反向連接插入到不同的網(wǎng)絡(luò)骨干中,用高層的視覺線索輔助中間層的特征學(xué)習(xí)。除此之外,針對數(shù)據(jù)集正反例樣本不均衡的特點(diǎn),設(shè)計(jì)了一個類平衡損失函數(shù),最大限度地減少了簡單負(fù)樣本產(chǎn)生的噪聲。