摘要:通過打造其沃森和SPSS預(yù)測(cè)分析,IBM的云機(jī)器學(xué)習(xí)服務(wù)能夠滿足開發(fā)人員、數(shù)據(jù)科學(xué)家和企業(yè)組織的相關(guān)需求。
早在2011年2月,IBM公司的沃森 AI人工智能系統(tǒng)在美國(guó)最受歡迎的智力競(jìng)賽節(jié)目Jeopardy上,通過人機(jī)大戰(zhàn)成功打敗了兩位從Jeopardy節(jié)目中脫穎而出的參賽者,從而引起全世界的關(guān)注。而IBM公司也一直在致力于運(yùn)用沃森系統(tǒng)解決更有趣的問題,而不僅僅只是回答一些智力競(jìng)賽問答。IBM還將沃森相關(guān)功能進(jìn)行了擴(kuò)展,以便能夠服務(wù)于開發(fā)人員,數(shù)據(jù)科學(xué)家,甚至普通的商業(yè)用戶。除了IBM公司的SPSS預(yù)測(cè)分析軟件之外,沃森還形成了IBM公司在機(jī)器學(xué)習(xí)和高級(jí)先進(jìn)分析方面的云服務(wù)產(chǎn)品的基礎(chǔ)。
IBM公司的沃森系統(tǒng)分為五個(gè)部分:機(jī)器學(xué)習(xí)、問題分析、自然語(yǔ)言處理、工程特征、本體分析。通過這五個(gè)組成部分,IBM公司已經(jīng)建立起了一整套的云服務(wù)產(chǎn)品組合,您可以借助其來打造您自己的迷您沃森,從而幫助解決您的問題。(請(qǐng)注意,基于現(xiàn)成的答案編寫知識(shí)庫(kù)是很簡(jiǎn)單的:在智力競(jìng)賽節(jié)目Jeopardy上,95%的問題均可以通過搜索到的維基百科文章的標(biāo)題來回答。)
與此同時(shí),IBM公司正在通過合作開發(fā),以便將沃森技術(shù)應(yīng)用到企業(yè)水平的醫(yī)療衛(wèi)生、地震防御與救災(zāi)、教育和基因組學(xué)領(lǐng)域。雖然這些方面的努力無(wú)疑都是非常有趣的,尤其是從長(zhǎng)遠(yuǎn)方面來看的話,但為了撰寫本文,此次對(duì)其進(jìn)行測(cè)評(píng)審查的目的,我則將會(huì)把重點(diǎn)專注于沃森和其他可用于IBM云服務(wù)的機(jī)器學(xué)習(xí)(ML)技術(shù)方面,包括Bluemix PaaS的使用。
其他的機(jī)器學(xué)習(xí)(ML)高科技都包括哪些?在IBM公司幅員遼闊的帝國(guó)的一個(gè)遙遠(yuǎn)的角落,IBM SPSS為SPSS Modeler打包
提供Windows和云服務(wù)部署,此外還加上一項(xiàng)預(yù)測(cè)分析服務(wù),其可以在BlueMix PaaS和周期性批量作業(yè)實(shí)時(shí)運(yùn)行其模型預(yù)測(cè),以更新模型。IBM SPSS Modeler能夠與微軟Azure機(jī)器學(xué)習(xí)和Databricks兼容,而且IBM沃森服務(wù)還能夠與微軟的牛津項(xiàng)目(Project Oxford)和Cortana分析,以及惠普企業(yè)公司推出的Haven OnDemand相兼容。
IBM SPSS Modeler和預(yù)測(cè)分析
讓我們從IBM SPSS Modeler和預(yù)測(cè)分析開始吧。我下載了SPSS Modeler產(chǎn)品的Windows 30天免費(fèi)試用版本,并按照說明步驟進(jìn)行了安裝。免費(fèi)版本在其試用期內(nèi)有一項(xiàng)個(gè)性化的編輯功能,包括:數(shù)據(jù)訪問和導(dǎo)出、自動(dòng)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)信息處理(data wrangling)和ETL、基于機(jī)器學(xué)習(xí)算法和自動(dòng)化建模、R可擴(kuò)展性(R extensibility)和Python腳本。其不包括通過IBM SPSS分析服務(wù)器進(jìn)行Hadoop/Spark的大數(shù)據(jù)訪問,也不包括champion/challenger功能、A/B測(cè)試、文本和實(shí)體分析、社會(huì)網(wǎng)絡(luò)分析。這些功能特點(diǎn)在更昂貴的SKU中均有提供。
在SPSS Modeler中的ML算法能夠與您在Azure機(jī)器學(xué)習(xí)和spark.ml找到的相兼容,因?yàn)槠鋼碛泄δ芴卣鞯倪x擇和支持的格式的選擇。即使是與自動(dòng)化建模(automodeling)相比較,也毫不遜色,雖然在SPSS Modeler中的關(guān)于如何使用的介紹比在其他產(chǎn)品中的更明顯。
IBM SPSS Modeler的Windows版本有超過30款的ML模型,包括自動(dòng)建模。擁有一個(gè)點(diǎn)擊式界面,而考慮到其復(fù)雜性,可以說其很容易使用。
而在SPSS Modeler中所包含的您無(wú)法在Azure機(jī)器學(xué)習(xí)中找到的功能特點(diǎn)是Jupyter Notebooks或Databricks的筆記本,其具有一個(gè)點(diǎn)擊式界面。曾經(jīng)有一段時(shí)間(很久以前),我也曾滔滔不絕地談?wù)撨^SPSS使得其統(tǒng)計(jì)分析應(yīng)用程序能夠通過添加Windows鼠標(biāo)和菜單界面而變得易于使用的這一功能是多么強(qiáng)大。現(xiàn)如今,我再也不在乎這一點(diǎn)了。事實(shí)上,我現(xiàn)在更喜歡筆記本的方法,主要是因?yàn)橐粋€(gè)有注解的筆記本(我想第一次看到是在Mathcad的DOS)便于另一位分析師跟蹤您所做的工作,并能夠檢查或擴(kuò)展您的工作。
總體來說,我認(rèn)為IBM SPSS Modeler是功能非常強(qiáng)大和易于使用的,具有良好的性能,但其售價(jià)是非常昂貴的。其“呼吁定價(jià)”標(biāo)志告訴我,IBM云服務(wù)的SPSS Modeler Gold版本和SPSS分析服務(wù)器的售價(jià)可能更昂貴。
一旦您創(chuàng)建了之后,您將會(huì)如何處理您的SPSS model呢,您會(huì)做什么呢?將其上傳到BlueMix。IBM BlueMix主機(jī)預(yù)測(cè)分析的Web服務(wù),適用于SPSS模型能夠揭示API的得分,您可以從您的應(yīng)用程序調(diào)用。IBM還在GitHub上發(fā)布了兩款示例應(yīng)用程序;這些都是基于SPSS Modeler提供的樣本數(shù)據(jù)集,他們作為Web服務(wù)部署,能夠被Node.js或Angular.js應(yīng)用程序調(diào)用。兩者看起來比較簡(jiǎn)單?! ?/p>
在IBM Bluemix上運(yùn)行的該預(yù)測(cè)分析服務(wù),可以采用SPSS模型,并將其部署為Web服務(wù),將為您的應(yīng)用程序進(jìn)行預(yù)測(cè)評(píng)分。
除了Web服務(wù),預(yù)測(cè)分析支持批處理作業(yè),以再培訓(xùn)和額外數(shù)據(jù)模型的重新評(píng)估?;蛘?,一個(gè)批處理作業(yè)可以通過再培訓(xùn)模式更新已部署的模型;這解決了當(dāng)數(shù)據(jù)發(fā)生更改時(shí),預(yù)測(cè)模型失效的通病問題。目前,預(yù)測(cè)分析批處理作業(yè)只作為API調(diào)用公開;我還沒有發(fā)現(xiàn)用戶界面。
Bluemix中的沃森
您會(huì)發(fā)現(xiàn),在沃森列表下列出了18項(xiàng)BlueMix服務(wù),如下圖所示。每款服務(wù)都公開了一個(gè)REST API。此外,您也可以下載SDK,以為您的應(yīng)用程序使用API 。例如,Alchem yAPI有可用于Java、C / C ++、C#、Perl、PHP、Python、Ruby、JavaScript和Android操作系統(tǒng)的SDK和示例。您需要一個(gè)API密鑰以運(yùn)行樣本,并成功地調(diào)用API。一般而言,一旦您在Bluemix中配置了一個(gè)沃森服務(wù),您將被鏈接到可以運(yùn)行的在線樣本,相關(guān)的文檔介紹也將為您呈現(xiàn)?! ?/p>
目前,在IBM Bluemix中提供18項(xiàng)可用的沃森服務(wù),其中有15項(xiàng)來自IBM。
AlchemyAPI提供了一組包括三項(xiàng)服務(wù)在內(nèi)的服務(wù)(Alchem yLanguage,Alchem yVision和Alchem yData),使企業(yè)組織和開發(fā)人員能夠建立認(rèn)知應(yīng)用程序,以理解文本和圖像所處的內(nèi)容和環(huán)境。 AlchemyLanguage處理文本,以便為情緒、情感(測(cè)試版)、關(guān)鍵字、實(shí)體和高層次的概念評(píng)分。AlchemyVision處理圖像以識(shí)別圖像、場(chǎng)景和對(duì)象。AlchemyData提供可搜索的新聞和博客內(nèi)容,豐富了自然語(yǔ)言處理。AlchemyAPI似乎從其他幾款沃森服務(wù)獲得了繪制能力,并合并到一項(xiàng)單一的服務(wù),包括成為網(wǎng)頁(yè)的組合。
下一步是概念擴(kuò)展,其能夠基于背景環(huán)境和對(duì)于概念的見解,分析文本和學(xué)習(xí)類似的單詞或短語(yǔ),并為您提供了基于維基百科主題的一個(gè)預(yù)先存在的圖形概念的文件鏈接。(還記得我前面在上文中所提到的Jeopardy智力競(jìng)賽所涉及的維基百科標(biāo)題嗎?)在文檔中的注釋介紹說,沃森的概念擴(kuò)展服務(wù)已2016年3月6日從BlueMix目錄刪除。然而,到了3月18日,其仍然有一個(gè)預(yù)定義的數(shù)據(jù)集和域作為一項(xiàng)測(cè)試服務(wù),使得我能夠配置服務(wù)和運(yùn)行樣本
該對(duì)話框服務(wù)允許您設(shè)計(jì)應(yīng)用程序與一名用戶使用自然語(yǔ)言和用戶配置信息通過對(duì)話界面進(jìn)行交互交互的方式。文檔轉(zhuǎn)換服務(wù)將一個(gè)單一的HTML、PDF,或微軟Word文檔轉(zhuǎn)換成規(guī)范化的HTML、純文本,或一組的JSON格式的答案單位,可被其他沃森服務(wù)利用。
語(yǔ)言翻譯包括了幾個(gè)知識(shí)域和語(yǔ)言的配對(duì)。在新聞和會(huì)話領(lǐng)域,包括了英語(yǔ)和巴西葡萄牙語(yǔ),法語(yǔ),現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ),或西班牙語(yǔ)的互相翻譯。在專利中,包括英語(yǔ)和巴西葡萄牙語(yǔ),中文,韓語(yǔ),或西班牙語(yǔ)。翻譯服務(wù)可以識(shí)別以62種不同語(yǔ)言被寫入的純文本。
在您進(jìn)了一組類別和短語(yǔ)訓(xùn)練之后,自然語(yǔ)言分類服務(wù)適用于認(rèn)知計(jì)算技術(shù),并為句子、問題或短語(yǔ)返回最匹配的類別。您可以看到這個(gè)功能在Jeopardy智力競(jìng)賽游戲中是如何充分發(fā)揮作用的。
個(gè)性化的見解來自交易和社交媒體數(shù)據(jù)(至少要包括由一個(gè)單一的個(gè)體所寫的1000個(gè)單詞)來識(shí)別心理特質(zhì),其將以樹的特點(diǎn)返回一個(gè)JSON格式。通過語(yǔ)境分析關(guān)系抽取分析句子的成分和檢測(cè)組件之間的關(guān)系(語(yǔ)音和部分功能)。個(gè)性化見解的API被記錄用于Curl、Node節(jié)點(diǎn)和java;API的demo演示分析了奧普拉、Lady Gaga和國(guó)王詹姆斯的推文,以及幾篇文章。
檢索和排名是Apache Solr實(shí)現(xiàn)搜索結(jié)果的機(jī)器學(xué)習(xí)訓(xùn)練的相關(guān)性改進(jìn)。Solr是建立在Apache Lucene的全文索引基礎(chǔ)上的分類感知搜索服務(wù)器。
語(yǔ)音到文本處理的服務(wù)將人類語(yǔ)音轉(zhuǎn)換為以英語(yǔ),日語(yǔ),阿拉伯語(yǔ)(MSA),漢語(yǔ)普通話,葡萄牙語(yǔ)(巴西),西班牙編寫的文字。除了文本,服務(wù)將返回元數(shù)據(jù),包括每個(gè)單詞或短語(yǔ)的開始/結(jié)束時(shí)間和可替代的最佳短語(yǔ)。
文本到語(yǔ)音的服務(wù),能夠處理文本和自然語(yǔ)言,以生成合成的音頻,輸出完全適當(dāng)?shù)恼f話節(jié)奏和語(yǔ)調(diào)。語(yǔ)音包括了美式和英式的英語(yǔ),法語(yǔ),德語(yǔ),意大利語(yǔ),西班牙語(yǔ),北美西班牙語(yǔ),巴西葡萄牙語(yǔ)和日語(yǔ)。根據(jù)該文件顯示,其中三種美國(guó)英語(yǔ)的聲音之一被用在了Jeopardy智力競(jìng)賽游戲中作為沃森的聲音,但當(dāng)我在運(yùn)行demo演示時(shí),并沒有語(yǔ)音。
語(yǔ)氣分析儀,目前仍處于測(cè)試階段,能夠從文本中識(shí)別情感、社會(huì)傾向、寫作風(fēng)格。權(quán)衡分析使用帕累托過濾技術(shù),以跨多個(gè)標(biāo)準(zhǔn)確定最佳的替代方案,然后使用各種分析和視覺方法,以幫助決策者進(jìn)行探索和權(quán)衡,進(jìn)而從備選方案中確定最佳的替代品,進(jìn)行取舍。
最后,視覺識(shí)別服務(wù),使您能夠分析JPEG圖像(或視頻幀)的外觀,來了解其是在一個(gè)怎樣的場(chǎng)景下發(fā)生的。使用預(yù)培訓(xùn)的機(jī)器學(xué)習(xí)技術(shù),語(yǔ)義分類識(shí)別許多常見的可視化實(shí)體,如設(shè)置,對(duì)象和事件,返回標(biāo)簽和可能性得分。
在Bluemix中的三款非IBM沃森服務(wù)還是封閉測(cè)試版。
沃森分析
沃森分析使用IBM公司自己的自然語(yǔ)言處理,使機(jī)器學(xué)習(xí)更容易為企業(yè)組織的業(yè)務(wù)分析師和其他非數(shù)據(jù)科學(xué)家方面的職位角色所使用。這是一個(gè)很明顯使用了IBM的許多服務(wù)的Web應(yīng)用程序,
包括了Bluemix的沃森部分。我嘗試使用了免費(fèi)試用版本,并用它來作為分析其所提供的自行車租賃服務(wù)數(shù)據(jù)集的一個(gè)樣本?! ?/p>
IBM沃森分析運(yùn)行在其自己的網(wǎng)站上,而不是在Bluemix上。如上圖所示,其可以讓您通過五個(gè)過程分析數(shù)據(jù)。重點(diǎn)是使數(shù)據(jù)科學(xué)可訪問。
我能設(shè)想得到,這種方法對(duì)于那些只需要獲得機(jī)器學(xué)習(xí)的結(jié)果,而無(wú)需編程,或者甚至根本對(duì)于該方法都沒有很好的了解的人們而言,會(huì)是相當(dāng)有用的。然而,我發(fā)現(xiàn),自然語(yǔ)言界面和所有有用的診斷大多都是以我的方式所呈現(xiàn)的。這讓我感到驚訝,因?yàn)樯虡I(yè)智能產(chǎn)品的用戶界面,如Tableau和Qlik Sense,就實(shí)現(xiàn)了沃森分析試圖完成的一個(gè)子集,但以我的方式是絕對(duì)無(wú)法獲得的?! ?/p>
沃森為自行車租賃數(shù)據(jù)集的分析想出了一個(gè)決策樹模型,設(shè)置了48%的預(yù)測(cè)強(qiáng)度。該工作表還沒有將工作日和非工作日的租客分開。
我一直試圖在一次單一的產(chǎn)品測(cè)評(píng)審查中覆蓋IBM公司的三款ML產(chǎn)品(或更多產(chǎn)品,這取決于您怎么算)。我承認(rèn),這是不容易的。因?yàn)槲冶緛硐M麑?duì)自己所測(cè)評(píng)的每一件產(chǎn)品做泛泛的評(píng)估,最終沒能實(shí)現(xiàn),但我還是總結(jié)出了一些一般性結(jié)論。
IBM SPSS Modeler在Windows或在線UI提供了常規(guī)ML培訓(xùn)和評(píng)分。這固然是非常好的,但其價(jià)格昂貴。Bluemix預(yù)測(cè)分析可以運(yùn)行SPSS模型作為Web服務(wù)和返回預(yù)測(cè)。也可以運(yùn)行批處理作業(yè),以更新模型。
沃森服務(wù)在Bluemix中為專業(yè)的ML應(yīng)用程序提供云服務(wù)和API。其提供了15項(xiàng)IBM沃森服務(wù),可以被摻入到您自己的應(yīng)用程序。雖然他們都是不同的,他們的功能似乎是不錯(cuò)的,而且價(jià)格合理。沃森分析是一款Web應(yīng)用程序,用于借助機(jī)器學(xué)習(xí)和相關(guān)的工具進(jìn)行數(shù)據(jù)分析,包括數(shù)據(jù)的探索。沃森分析盡量做到能夠很容易的使用,但這讓我感到無(wú)所適從,讓我想撕掉的UI和代碼。我能夠想象得到沃森分析對(duì)于那些沒有受過數(shù)據(jù)科學(xué)訓(xùn)練的商業(yè)人士的價(jià)值,但我本人并不是特別喜歡。
實(shí)際的數(shù)據(jù)科學(xué)家們也許會(huì)想跳過沃森分析,偏向于使用SPSS Modeler和在Bluemix中的沃森服務(wù)。業(yè)務(wù)分析師可能會(huì)使用沃森分析,但對(duì)于他們的探索性的數(shù)據(jù)分析,可能使用Tableau會(huì)更好,然后與數(shù)據(jù)科學(xué)家合作,以開發(fā)預(yù)測(cè)模型。
本文作者馬丁海勒是InfoWorld網(wǎng)站的特約編輯和審稿人。以前曾是一名Web和Windows應(yīng)用程序設(shè)計(jì)顧問,從1986年到2010年他曾在位于馬薩諸塞州安杜佛的辦公室開發(fā)過數(shù)據(jù)庫(kù),軟件和網(wǎng)站。最近,他曾擔(dān)任過阿爾法軟件公司的技術(shù)和教育副總裁,以及Tubifi公司的董事長(zhǎng)兼首席執(zhí)行官。