如何為機(jī)器學(xué)習(xí)奠定基礎(chǔ)

責(zé)任編輯:cres

作者:Mathias

2019-04-11 11:03:09

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

隨著像亞馬遜、Facebook和谷歌這樣的公司繼續(xù)推動機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,那么如何充分利用最新和最好的算法?最成功的企業(yè)將是那些投資于新技術(shù),并明智地利用他們可以使用的技能和數(shù)據(jù)系統(tǒng)的人。

機(jī)器學(xué)習(xí)對許多人來說是一種新事物,因?yàn)樗罱懦蔀榇蟊娛袌龅目尚泄ぞ撸涓磪s有幾十年的歷史。機(jī)器從數(shù)據(jù)中學(xué)習(xí)的概念在20世紀(jì)50年代實(shí)現(xiàn)。1988年,IBM公司將基于概率的數(shù)據(jù)算法的原理引入到以前基于規(guī)則的機(jī)器學(xué)習(xí)領(lǐng)域,從而徹底改變了這個行業(yè)。
 
如今,很多人都在采用虛擬人工代理(例如Siri、Alexa、Google Now),利用機(jī)器學(xué)習(xí)收集和分析從人們的交互中收集的信息,以預(yù)測需求,并根據(jù)人們的偏好定制服務(wù)。社交媒體網(wǎng)站使用該技術(shù)推薦和結(jié)識更多的朋友,同時在照片應(yīng)用中進(jìn)行面部識別,以節(jié)省人們的時間、精力和資源。但除此之外,機(jī)器學(xué)習(xí)現(xiàn)在還通過檢測卡支付模式和改善在線購物交付方式來保護(hù)人們免受欺詐。
 
當(dāng)今的企業(yè)希望他們的數(shù)據(jù)能夠承擔(dān)一些繁重的工作,并且希望降低成本,提高一致性,簡化操作。機(jī)器學(xué)習(xí)有助于大規(guī)模實(shí)現(xiàn)這一目標(biāo),調(diào)研機(jī)構(gòu)德勤公司的調(diào)查發(fā)現(xiàn),在2018年,57%的企業(yè)增加了相關(guān)技術(shù)的支出。雖然該技術(shù)以前被視為一種過度支出,但如今它被理解為對企業(yè)未來的投資和具有競爭力的收入驅(qū)動力。
 
數(shù)據(jù)專家和作者Bernard Marr表示,現(xiàn)在開發(fā)人員已經(jīng)對算法和技術(shù)進(jìn)行了試驗(yàn),機(jī)器學(xué)習(xí)將成為英國各地開展商業(yè)計(jì)劃和預(yù)算的核心。最近的研究支持這一說法,揭示了48%的歐洲組織現(xiàn)在認(rèn)為機(jī)器學(xué)習(xí)對其近期業(yè)務(wù)的發(fā)展至關(guān)重要。
 
隨著像亞馬遜、Facebook和谷歌這樣的公司繼續(xù)推動機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,那么如何充分利用最新和最好的算法?最成功的企業(yè)將是那些投資于新技術(shù),并明智地利用他們可以使用的技能和數(shù)據(jù)系統(tǒng)的人。因此,人們忘記那些宣傳和炒作,要關(guān)注其最基本的方面。
 
按順序獲取數(shù)據(jù)
 
機(jī)器學(xué)習(xí)技術(shù)最大的特點(diǎn)之一是它的靈活性;它可以利用從供應(yīng)鏈和庫存控制到工廠自動化和重復(fù)數(shù)據(jù)輸入任務(wù)的一切。每個應(yīng)用程序都需要一個單獨(dú)的存儲庫,在該存儲庫中可以收集和操作數(shù)據(jù),以允許算法評估值。為了讓機(jī)器學(xué)習(xí)算法提供明智的判斷和建議,底層數(shù)據(jù)庫必須穩(wěn)定地提供清潔、準(zhǔn)確、詳細(xì)的數(shù)據(jù)。
 
在最近由Vanson Bourne公司進(jìn)行的調(diào)查中,近一半的組織承認(rèn)對數(shù)據(jù)質(zhì)量服務(wù)進(jìn)行了投資,以確保其數(shù)據(jù)可用于所有機(jī)器學(xué)習(xí)應(yīng)用。如果沒有數(shù)據(jù)質(zhì)量和整合,人工智能技術(shù)就不會繼續(xù)提高癌癥患者的存活率,也不會使人工智能技術(shù)在國際象棋和圍棋比賽中取勝,也難以改變生物化學(xué)的面貌。
 
投資的轉(zhuǎn)變側(cè)重于確保捕獲的數(shù)據(jù)具有盡可能高的質(zhì)量,而不是簡單地盡可能地?cái)U(kuò)大數(shù)據(jù)網(wǎng)的規(guī)模,這是一個明顯的行業(yè)變化。不到十年前,專用的數(shù)據(jù)質(zhì)量服務(wù)和工具是一種利基服務(wù),并且在數(shù)據(jù)繁重的業(yè)務(wù)中基本未被充分利用。現(xiàn)在,它們是企業(yè)高管未來計(jì)劃的重中之重。
 
隨著機(jī)器學(xué)習(xí)繼續(xù)以越來越高的速度發(fā)展,企業(yè)必須招募更多的數(shù)據(jù)科學(xué)家,并投資于處理此類算法的必要技術(shù)??煽康母哔|(zhì)量數(shù)據(jù)數(shù)據(jù)庫使組織更接近將機(jī)器學(xué)習(xí)整合到他們的業(yè)務(wù)中,但如果企業(yè)的數(shù)據(jù)科學(xué)家沒有正確的資源,那么這種勢頭將會減弱。
 
數(shù)據(jù)科學(xué)家的建議
 
在采取措施之前,企業(yè)必須考慮他們希望添加到其軟件生態(tài)系統(tǒng)中的各種編程語言,同時考慮到業(yè)務(wù)的最終目標(biāo),可用的編程技能以及每種語言的質(zhì)量。
 
研究表明,64%的組織表示,依賴機(jī)器學(xué)習(xí)來挖掘大型數(shù)據(jù)集,并預(yù)測未來事件結(jié)果的預(yù)測分析是投資機(jī)器學(xué)習(xí)的關(guān)鍵動力。這種預(yù)測分析功能依賴于數(shù)據(jù)科學(xué)家對適當(dāng)編程語言的掌握。那么如何掌握和獲得?通過學(xué)習(xí)、實(shí)驗(yàn),以及向他人請教。
 
根據(jù)2018年Tiobe Index的調(diào)查,Python成為全球最流行的編程語言之一,并已經(jīng)超越其競爭對手,主要是因?yàn)槠渚哂泻唵涡?、可讀性、多功能性和靈活性。隨著全球數(shù)百萬人學(xué)習(xí)和使用該語言,越來越多的個人和團(tuán)體在線共享程序、技巧和整個算法。Python的用戶網(wǎng)絡(luò)為希望使用和嘗試Python的企業(yè)提供了大量的學(xué)習(xí)材料。
 
基于Python的技術(shù)也在不斷涌現(xiàn)。 3月4日,深度學(xué)習(xí)庫TensorFlow的第二版Alpha發(fā)行。TensorFlow 2.0承諾繼續(xù)其前任作為世界上最受歡迎的機(jī)器學(xué)習(xí)項(xiàng)目之一,擁有更廣泛的Python庫。使用Python腳本,可以更輕松地利用數(shù)據(jù)科學(xué)社區(qū)的豐富知識和快速進(jìn)步。
 
最終,企業(yè)應(yīng)該致力于提供一個基礎(chǔ)數(shù)據(jù)基礎(chǔ)設(shè)施,所有團(tuán)隊(duì)中的每個人都應(yīng)該提供這些基礎(chǔ)設(shè)施。對于商業(yè)智能團(tuán)隊(duì)來說,這通常是SQL(即使他們的工具生成它),但為了成功實(shí)現(xiàn)這一目標(biāo),必須允許數(shù)據(jù)庫科學(xué)家使用他們的首選語言(尤其是Python)運(yùn)行數(shù)據(jù)腳本。數(shù)據(jù)的標(biāo)準(zhǔn)化和民主化意味著企業(yè)能夠以更具創(chuàng)造性和實(shí)驗(yàn)性的方式在所有和部分業(yè)務(wù)中應(yīng)用機(jī)器學(xué)習(xí)。
 
采用云計(jì)算
 
雖然內(nèi)部部署的IT基礎(chǔ)設(shè)施能夠托管許多開源框架來構(gòu)建機(jī)器學(xué)習(xí)解決方案,但如今許多企業(yè)缺乏有效支持這些解決方案的能力和可擴(kuò)展性。例如,大多數(shù)企業(yè)目前沒有重要的GPU計(jì)算能力,因?yàn)樗麄冇?jì)劃運(yùn)營x86工作負(fù)載的容量,而平行工作的GPU服務(wù)器集群可能會大大加速深度學(xué)習(xí)算法的培訓(xùn)過程。
 
如果企業(yè)正在評估項(xiàng)目的機(jī)器學(xué)習(xí),則超大規(guī)模云平臺可以提供基于消費(fèi)的GPU計(jì)算訪問。它還提供額外的x86計(jì)算,用于構(gòu)建高性能數(shù)據(jù)庫分析的基礎(chǔ)設(shè)施,然后算法可以從中進(jìn)行數(shù)據(jù)分析。
 
當(dāng)需求從批量分析轉(zhuǎn)移到實(shí)時(或至少是業(yè)務(wù)時間)時,相關(guān)數(shù)據(jù)的流量必須與近乎實(shí)時工作的機(jī)器學(xué)習(xí)算法的需求保持同步。可以利用云計(jì)算彈性來確保在整個項(xiàng)目的生命周期中支持工作負(fù)載,并使企業(yè)可以自由地嘗試機(jī)器學(xué)習(xí)功能,而不會受到資本支出決策的阻礙。
 
組織將業(yè)務(wù)擴(kuò)展到云端從未如此輕松,因?yàn)锳WS、谷歌、亞馬遜三大公共云提供商都在為機(jī)器學(xué)習(xí)業(yè)務(wù)而不斷努力。盡管如此,去年的BI to DA Analytics研究發(fā)現(xiàn),只有30%的組織利用云計(jì)算的彈性和可擴(kuò)展性,并通過機(jī)器學(xué)習(xí)從組織的數(shù)據(jù)中獲取價(jià)值。
 
數(shù)據(jù)分析和機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施對于以數(shù)據(jù)為中心的組織而言至關(guān)重要。希望投資新技術(shù)戰(zhàn)略的企業(yè)應(yīng)該確保他們的分析數(shù)據(jù)庫基礎(chǔ)設(shè)施能夠同時在內(nèi)部部署和云計(jì)算應(yīng)用程序上運(yùn)行,讓他們可以自由地在第三方數(shù)據(jù)中心和內(nèi)部部署之間遷移工作負(fù)載,以優(yōu)化成本和計(jì)劃不斷發(fā)展其運(yùn)營地區(qū)的數(shù)據(jù)治理要求。
 
雖然機(jī)器學(xué)習(xí)的復(fù)雜性和應(yīng)用可能看起來令人生畏,但提供啟動機(jī)器學(xué)習(xí)項(xiàng)目的基礎(chǔ)設(shè)施比許多人想象的更為可行。事實(shí)上,企業(yè)已經(jīng)在其標(biāo)準(zhǔn)IT流程中使用他們所需的技術(shù):數(shù)據(jù)庫、編程語言、基礎(chǔ)設(shè)施即服務(wù)。為了優(yōu)化機(jī)器學(xué)習(xí)的下一步,這些技術(shù)必須簡單地用于不同的容量。
 
隨著越來越多的組織優(yōu)先考慮數(shù)據(jù)質(zhì)量,并了解理解和應(yīng)用機(jī)器學(xué)習(xí)的好處,他們將享受更好的決策和降低成本的好處。隨著市場競爭的加劇,企業(yè)獲得收益越來越難,采用機(jī)器學(xué)習(xí)將成為其業(yè)務(wù)走向成功的途徑。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號