現(xiàn)如今構(gòu)建人工智能或機(jī)器學(xué)習(xí)系統(tǒng)比以往的時(shí)候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上通過 AWS 的大規(guī)模計(jì)算力、Google Cloud 或其他供應(yīng)商的云計(jì)算,這些都意味著你可以在下午休閑時(shí)間使用筆記本電腦去訓(xùn)練出最前沿的機(jī)器學(xué)習(xí)模型。
雖然不算是人工智能訓(xùn)練的最前沿,但人工智能的無名英雄確實(shí)就是數(shù)據(jù),許多許多標(biāo)注或未標(biāo)注的數(shù)據(jù)。研究部門和公司也都認(rèn)識(shí)到數(shù)據(jù)民主化是加快人工智能的必要步驟。
然而,涉及到機(jī)器學(xué)習(xí)或人工智能的大多數(shù)產(chǎn)品強(qiáng)烈依賴于那些通常沒有開放的私有數(shù)據(jù)集,而本文將指出解決這種困境的辦法。
事實(shí)上,我們很難用一篇文章來說明哪些開放數(shù)據(jù)集是有用的,因?yàn)槟切┯杏玫拈_放數(shù)據(jù)集必須是可概念證明的,而什么數(shù)據(jù)集對(duì)產(chǎn)品或確認(rèn)特征是有用的,在你收集你自己所有數(shù)據(jù)之前是不知道的。
重要的是,如果數(shù)據(jù)集有良好的表現(xiàn)并不能保證其訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)在實(shí)際產(chǎn)品場(chǎng)景中表現(xiàn)良好。許多人在構(gòu)建人工智能系統(tǒng)時(shí)常常忘了構(gòu)建一個(gè)新人工智能解決方案或產(chǎn)品最困難的部分不是人工智能本身或算法,通常最困難的地方是數(shù)據(jù)收集和標(biāo)注。標(biāo)準(zhǔn)數(shù)據(jù)集可以作為驗(yàn)證或構(gòu)建更優(yōu)良解決辦法的良好起點(diǎn)。
在這個(gè)星期,我和一些機(jī)器學(xué)習(xí)專家們討論的都是有關(guān)標(biāo)準(zhǔn)數(shù)據(jù)集的問題。為了讓你能更輕松地構(gòu)建人工智能系統(tǒng),我們搜集了一些開源數(shù)據(jù)集,這些開源數(shù)據(jù)集是我們認(rèn)為在人工智能的世界里你所需要了解的。
計(jì)算機(jī)視覺
MNIST: 最通用的健全檢查。25x25 的數(shù)據(jù)集,中心化,B&W 手寫數(shù)字。這是個(gè)容易的任務(wù)——但是在 MNIST 有效,不等同于其本身是有效的。
地址:http://pjreddie.com/projects/mnist-in-csv/
CIFAR 10 &CIFAR 100: 32x32 彩色圖像。雖不再常用,但還是用了一次,可以是一項(xiàng)有趣的健全檢查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet: 新算法實(shí)際上的圖像數(shù)據(jù)集。很多圖片 API 公司從其 REST 接口獲取標(biāo)簽,這些標(biāo)簽被懷疑與 ImageNet 的下一級(jí) WordNet 的 1000 個(gè)范疇很接近。
地址:http://image-net.org/
LSUN: 場(chǎng)景理解具有很多輔助任務(wù)(房間布置評(píng)估、顯著性預(yù)測(cè)等)和一個(gè)相關(guān)競(jìng)爭(zhēng)。
地址:http://lsun.cs.princeton.edu/2016/
PASCAL VOC: 通用圖像分割/分類:對(duì)于構(gòu)建真實(shí)世界的圖像注釋毫無用處,對(duì)于基線則意義重大。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
SVHN: 來自谷歌街景視圖(Google Street View)的房屋數(shù)量。把這想象成荒野之中的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO: 帶有一個(gè)相關(guān)性競(jìng)爭(zhēng)的通用圖像理解/字幕。
地址:http://mscoco.org/
Visual Genome: 非常詳細(xì)的視覺知識(shí)庫(kù),并帶有 100K 圖像的深字幕。
地址:http://visualgenome.org/
Labeled Faces in the Wild:通過名稱標(biāo)識(shí)符,已經(jīng)為被裁剪的面部區(qū)域(用 Viola-Jones)打了標(biāo)簽?,F(xiàn)有人類的子集在數(shù)據(jù)集中有兩個(gè)圖像。對(duì)于這里做面部匹配系統(tǒng)訓(xùn)練的人來說,這很正常。
地址:http://vis-www.cs.umass.edu/lfw/
自然語(yǔ)言
文本分類數(shù)據(jù)集(2015 年來自 Zhang 等人):一個(gè)用于文本分類的合 8 個(gè)數(shù)據(jù)集為 1 個(gè)的大型數(shù)據(jù)集。這些是用于新文本分類的最常被報(bào)道的基線。樣本大小從 120K 到 3.6M, 問題從 2 級(jí)到 14 級(jí)。數(shù)據(jù)集來自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
WikiText:來自由 Salesforce MetaMind 精心策劃的維基百科文章中的大型語(yǔ)言建模語(yǔ)料庫(kù)。
地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
Question Pairs:從包含重復(fù)/語(yǔ)義相似性標(biāo)簽的 Quora 釋放出來的第一個(gè)數(shù)據(jù)集。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD: 斯坦福大學(xué)問答數(shù)據(jù)集(The Stanford Question Answering Dataset)——一個(gè)被廣泛應(yīng)用于問題回答和閱讀理解的數(shù)據(jù)集,其中每個(gè)問題的答案形式是文本的一個(gè)片段或碎片。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset: 手動(dòng)生成的仿真陳述問題/回答與維基百科文章的難度評(píng)級(jí)相對(duì)應(yīng)。
地址:http://www.cs.cmu.edu/~ark/QA-data/
Maluuba Datasets: 用于狀態(tài)性自然語(yǔ)言理解研究的人工生成的精密數(shù)據(jù)集。
地址:https://datasets.maluuba.com/
Billion Words: 大型,有統(tǒng)一目標(biāo)的語(yǔ)言建模數(shù)據(jù)集。常被用來訓(xùn)練諸如 word2vec 或 Glove 的分布式詞表征。
地址:http://www.statmt.org/lm-benchmark/
Common Crawl: PB 級(jí)規(guī)模的網(wǎng)絡(luò)爬行——常被用來學(xué)習(xí)詞嵌入。可從 Amazon S3 上免費(fèi)獲取。由于它是 WWW 的抓取,同樣也可以作為網(wǎng)絡(luò)數(shù)據(jù)集來使用。
地址:http://commoncrawl.org/the-data/
bAbi: 來自 FAIR(Facebook AI Research)的合成式閱讀理解與問答數(shù)據(jù)集。
地址:https://research.fb.com/projects/babi/
The Children’s Book Test:從來自古登堡計(jì)劃的童書中提取(問題+上下文,回答)組的基線。這對(duì)問題回答、閱讀理解和仿真陳述查詢有用。
地址:https://research.fb.com/projects/babi/
Stanford Sentiment Treebank: 標(biāo)準(zhǔn)的情感數(shù)據(jù)集,在每一個(gè)句子解析樹的節(jié)點(diǎn)上帶有細(xì)膩的情感注解。
地址:http://nlp.stanford.edu/sentiment/code.html
20 Newsgroups: 文本分類經(jīng)典數(shù)據(jù)集中的一個(gè)。通常可用作純分類或任何 IR/索引算法的基準(zhǔn)。
地址:http://qwone.com/~jason/20Newsgroups/
Reuters: 舊的,純粹基于分類的數(shù)據(jù)集與來自新聞專線的文本。常用于教程。
地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
IMDB:一個(gè)用于二元情感分類的更舊更小的數(shù)據(jù)集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
UCI’s Spambase: 來自著名的 UCI 機(jī)器學(xué)習(xí)庫(kù)較久的經(jīng)典垃圾電子郵件數(shù)據(jù)集。由于數(shù)據(jù)集的策劃細(xì)節(jié),這可以是一個(gè)學(xué)習(xí)個(gè)性化過濾垃圾郵件的有趣基線。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語(yǔ)音
大多數(shù)語(yǔ)音識(shí)別數(shù)據(jù)集是有所有權(quán)的,這些數(shù)據(jù)為收集它們的公司帶來了大量的價(jià)值,但在這一領(lǐng)域里,許多可用的數(shù)據(jù)集都是比較舊的。
2000 HUB5 English: 僅僅只包含英語(yǔ)的語(yǔ)音數(shù)據(jù),最近百度發(fā)表的論文《深度語(yǔ)音:擴(kuò)展端對(duì)端語(yǔ)音識(shí)別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語(yǔ)音數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech:包括文本和語(yǔ)音的有聲讀物數(shù)據(jù)集。它是近 500 小時(shí)由多人朗讀清晰的各類有聲讀物數(shù)據(jù)集,且由包含文本和語(yǔ)音的書籍章節(jié)組織起結(jié)構(gòu)。
地址:http://www.openslr.org/12/
VoxForge:帶口音的語(yǔ)音清潔數(shù)據(jù)集,特別是對(duì)于如期望對(duì)不同口音或腔調(diào)的語(yǔ)音有魯棒性需求的系統(tǒng)很有用。
地址:http://www.voxforge.org/
TIMIT:只包含英語(yǔ)的語(yǔ)音識(shí)別數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
CHIME:包含噪聲的語(yǔ)音識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集包含真實(shí)、模擬和清潔的語(yǔ)音記錄。實(shí)際上是記錄四個(gè)說話者在四個(gè)噪聲源的情況下近 9000 份記錄,模擬數(shù)據(jù)是在結(jié)合話語(yǔ)行為和清潔無噪語(yǔ)音記錄的多環(huán)境下生成的。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED 演講的語(yǔ)音轉(zhuǎn)錄數(shù)據(jù)集。1495 份 TED 演講的語(yǔ)音記錄,并且這些語(yǔ)音記錄有對(duì)應(yīng)的全文本。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統(tǒng)
Netflix Challenge:第一個(gè)主要 Kaggle 風(fēng)格的數(shù)據(jù)庫(kù)。因?yàn)榇嬖陔[私問題,只能非正式地獲得授權(quán)。
地址:http://www.netflixprize.com/
MovieLens:各種電影的評(píng)論數(shù)據(jù)庫(kù),通常用于基線協(xié)同過濾(collaborative filtering baselines)。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:在 Kaggle 上大量、富元數(shù)據(jù)(metadata-rich)、開源的數(shù)據(jù)集,有利于人們?cè)囼?yàn)混合推薦系統(tǒng)(hybrid recommendation systems)。
地址:https://www.kaggle.com/c/msdchallenge
Last.fm:音樂推薦數(shù)據(jù)集,該數(shù)據(jù)集能有權(quán)訪問底層社交網(wǎng)絡(luò)和其他元數(shù)據(jù),而這樣的數(shù)據(jù)集正對(duì)混合系統(tǒng)有巨大的作用。
地址:http://grouplens.org/datasets/hetrec-2011/
網(wǎng)絡(luò)和圖表
Amazon Co-Purchasing 和 Amazon Reviews:從亞馬遜以及相關(guān)產(chǎn)品評(píng)論數(shù)據(jù)網(wǎng)絡(luò)爬取的如「用戶買了這個(gè)同時(shí)也會(huì)買哪個(gè)」這樣的語(yǔ)句。適合在互聯(lián)網(wǎng)中進(jìn)行推薦系統(tǒng)的測(cè)試。
地址:http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:在 Friendster 的重心轉(zhuǎn)入到游戲網(wǎng)站之前,這家網(wǎng)站發(fā)布了包含 103,750,348 個(gè)用戶好友列表的匿名數(shù)據(jù)集。
地址:https://archive.org/details/friendster-dataset-201107
地理測(cè)繪數(shù)據(jù)庫(kù)
OpenStreetMap:免費(fèi)許可的全球矢量數(shù)據(jù)集。其包含了舊版的美國(guó)人口統(tǒng)計(jì)局的 TIGER 數(shù)據(jù)。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
Landsat8:整個(gè)地球表面的衛(wèi)星拍攝數(shù)據(jù),每隔幾周會(huì)更新一次。
地址:https://landsat.usgs.gov/landsat-8
NEXRAD:多普雷達(dá)掃描的美國(guó)大氣環(huán)境。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
人們常常認(rèn)為解決一個(gè)數(shù)據(jù)集上的問題就相當(dāng)于對(duì)產(chǎn)品進(jìn)行了一次完整的審視。因?yàn)槲覀兛梢允褂眠@些數(shù)據(jù)集進(jìn)行驗(yàn)證或證明一個(gè)概念,但是也不要忘了測(cè)試模型或原型是如何獲取新的和更實(shí)際的數(shù)據(jù)來提高運(yùn)算效果,獲得優(yōu)良產(chǎn)品的。數(shù)據(jù)驅(qū)動(dòng)的成功公司通常從他們收集新數(shù)據(jù)、私有數(shù)據(jù)的能力中獲得力量,從而以一種具有競(jìng)爭(zhēng)力的方式提高他們的表現(xiàn)。
總結(jié)
好數(shù)據(jù)集還有很多,這份列表當(dāng)然不可能完全覆蓋,如果你知道還有很好的數(shù)據(jù)集值得推薦,請(qǐng)通過評(píng)論與我們分享。