機器學習你是誰!你為什么要教壞我們Siri!

責任編輯:yliang

2017-05-02 11:05:11

摘自:懂企業(yè)的品高云

據(jù)說,每個用過水果機的小伙伴,都被Siri調(diào)戲過……

據(jù)說,每個用過水果機的小伙伴

都被Siri調(diào)戲過……

 

 

該調(diào)戲效果無法描述

請親身試驗

如果還沒有被調(diào)戲夠的親們,不用著急,上個月iOS 11新特性已經(jīng)曝光:Siri深度集成機器學習功能、更智能。意思就是,你可能會被調(diào)戲得更慘。

機器學習你是誰!

你為什么要教壞我們Siri!

關于機器學習還有一個我們很熟悉的例子,它讓人工智能和機器學習的概念進入了公眾的視野:2016 年 3 月,谷歌旗下的 AlphaGo挑戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石,并將其打敗。

(AlphaGo友情出演)

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論……等多門學科。它是專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,是人工智能的核心。

稍微笨點都看不懂

然鵝,面對機器學習所需要模型的多樣性和專業(yè)軟件的復雜性,不同的應用場景所需要的模型和軟件也會有所不同。這就讓機器學習服務的運行環(huán)境部署起來非常困難,有著極高的技術準入門檻,專業(yè)的機器學習軟件操作步驟繁瑣,非專業(yè)人士需要經(jīng)常長時間學習才可熟練使用。隨著科技不斷發(fā)展,人工智能系統(tǒng)的運行速度、存儲容量、數(shù)據(jù)擁有量將會繼續(xù)大幅增加,機器學習的應用場景會越來越多。

“怎么辦??!

我不會部署機學習的運行環(huán)境??!”

不用絕望,要解決日益增多的應用需求與克服復雜的技術準入門檻,品高云教你一招,輕松部署機器學習服務。

品高云機器學習服務介紹

品高云在 V7.0版本中推出了機器學習服務(Machine Learning)。

機器學習服務的實現(xiàn)是通過在品高云 OS 上創(chuàng)建彈性計算集群,自動配置機器學習算法,提供了二元、多元和回歸訓練模型,可一鍵式獲取機器學習環(huán)境能力,用戶無需學習復雜的機器學習算法和技術,即可在云平臺上可通過向導式界面快速創(chuàng)建機器學習模型、對自有數(shù)據(jù)源進行預測,解決用戶對機器學習軟硬件環(huán)境不熟悉導致配置困難的問題??梢詰玫劫徺I力趨勢預測、欺詐行為檢測、疾病判斷、房價預測、電影類型判別,產(chǎn)品推薦等場景。

功能優(yōu)勢

3.1 輕松創(chuàng)建學習環(huán)境

品高云的機器學習服務已將算法內(nèi)置為容器鏡像,并將復雜的機器學習算法集成為簡單的選項。用戶無需學習復雜的機器學習技術,只需通過引導式的界面設置,便可一鍵式獲取機器學習集群環(huán)境,快速創(chuàng)建機器學習模型,解決機器學習軟硬件環(huán)境配置困難的問題。

3.2 支持模型評估與圖形化展示

機器學習服務在創(chuàng)建模型成功后會自動生成一份模型的評估報表,報表內(nèi)不僅會有對模型的性能指標的測算,還提供圖形化的對比展示,用戶可直觀地觀察機器預測出的數(shù)據(jù)與原始數(shù)據(jù)的區(qū)別對比情況,以幫助用戶做出更好的判斷。

3.3 一站式機器學習流程

品高云機器學習平臺提供一站式數(shù)據(jù)挖掘流程,用戶將自有數(shù)據(jù)上傳之后,無需做任何線下處理即可實現(xiàn)業(yè)務場景全流程的工作。云平臺提供數(shù)據(jù)上傳、容器算法、模型制作和評估、機器學習預測等全套流程,且這一切無需用戶支付額外的軟硬件費用,全部只需在云平臺上實現(xiàn)。

3.4 豐富的算法模板

品高云機器學習服務支持深度學習和非深度學習的預測算法。用戶根據(jù)自有數(shù)據(jù)形式,只需選用統(tǒng)一的鏡像,立刻便可進行二元預測、多元預測、線性回歸和圖片識別等預測。平臺會根據(jù)用戶數(shù)據(jù)類型,自動選用合適算法??梢詰迷谫徺I力趨勢預測、欺詐行為檢測、疾病判斷、房價預測、電影類型判別、產(chǎn)品推薦等多種業(yè)務場景上。

技術架構

機器學習服務技術架構圖

4.1HPC Ready 云設施

機器學習服務是基于品高云的基礎設施構建,云平臺提供了機器學習所需的高性能硬件資源、高性能云套件和對象存儲服務。用戶可以使用以 CSV 文件(數(shù)據(jù))或圖片格式存放在對象存儲 S3 的數(shù)據(jù)集中,即可利用該信息源來創(chuàng)建和使用機器學習模型。通過底層調(diào)用基礎服務 EC2,通過機器學習鏡像和集群配置,搭建機器學習集群,便可以在集群中執(zhí)行訓練預測等任務(現(xiàn)階段支持數(shù)據(jù)預測進行集群配置)。

4.2 機器學習服務層

機器學習服務屬于 IaaS+服務, 機器學習使用容器集群管理引擎管理機器學習引擎和機器學習控制器。機器學習引擎主要負責模型的創(chuàng)立與評估,以及預測的管理;機器學習控制器主要處理任務分發(fā)、數(shù)據(jù)處理、狀態(tài)管理等控制工作。

4.3 展示操作層

機器學習分為非深度學習(數(shù)據(jù)判斷)和深度學習(圖片識別)。非深度學習會根據(jù)數(shù)據(jù)源中的預測數(shù)據(jù)類型(二元、多元、數(shù)值型),選用合適的模型(二元、多元、回歸模型),搭建好集群環(huán)境后進行模型數(shù)據(jù)訓練;深度學習是根據(jù)用戶提供的圖片復雜度選擇神經(jīng)網(wǎng)絡類型,結合用戶的相關配置進行模型訓練。機器學習在模型訓練結束后,會自動生成評估,可對比預測結果和原始數(shù)據(jù),計算相關度量值,評估模型的準確度。最后用戶可根據(jù)實際模型評估情況,有針對性地進行數(shù)據(jù)預測。

功能實踐:

地鐵碳滑板數(shù)據(jù)預測

地鐵在每天結束運營后會進行設備的檢修維護,其中碳滑板的檢查就是一項重要的內(nèi)容,碳滑板是受電弓的弓頭上幾塊可拆卸的碳或者粉末合金的導電性滑板,用來與接觸網(wǎng)接觸取電,質(zhì)地較軟。受電弓在與接觸網(wǎng)摩擦時主要的損耗在碳滑板上,當磨耗到限時就需要進行人工更換。因此,檢查人員會定期對碳滑板進行檢查,當達到更換標準時進行更換。每次進行更換都會記錄當前車號、裝車厚度、裝車時間、運營天數(shù)、運營公里數(shù)、磨損厚度等。

機器學習可利用累積記下來的碳滑板更換的歷史數(shù)據(jù)進行訓練,將訓練出來的模型對碳化板未來磨損程度進行預測,輔助人工進行碳滑板定期更換測量提供參考。

某城市地鐵的碳滑板的累計數(shù)據(jù)整理如下:

接下來通過如下步驟來驗證品高云中的機器學習服務功能:

本次功能實踐目的是對地鐵碳滑板的磨損程度進行數(shù)據(jù)預測,并通過預測值與實際值相對比以驗證機器學習的準確性。

5.1 容器管理

這個環(huán)節(jié)主要管理和配置機器學習容器集群所需的部署模板,配置機器學習服務的實例資源。

1. 進入【高級服務→機器學習→機器學習容器管理】,進入機器學習容器管理頁面可對已有容器進行管理操作。

圖 1 機器學習容器管理頁面

2. 點擊“新增機器學習容器”按鈕,彈出新增機器學習容器頁面。

圖 2 新增機器學習容器頁面

5.2 數(shù)據(jù)源的管理

機器學習需要輸入歷史數(shù)據(jù)進行模型訓練或者數(shù)據(jù)預測,歷史數(shù)據(jù)源都在 S3 存儲上。因此,數(shù)據(jù)源管理的目的是通過讀取存儲在 S3 上的基礎數(shù)據(jù)文件,推測目標數(shù)據(jù)列的數(shù)據(jù)類型。

進入【高級服務→機器學習→數(shù)據(jù)源管理】,進入數(shù)據(jù)源管理頁面可對現(xiàn)有數(shù)據(jù)進行管理操作。

圖 3 數(shù)據(jù)源管理頁面

點擊“新增數(shù)據(jù)源”按鈕,進入新增數(shù)據(jù)源頁面。

首先,選擇數(shù)據(jù)源類型,以便確認使用的機器學習框架。根據(jù)地鐵碳滑板的數(shù)據(jù)類型我們選擇數(shù)值預測。

圖 4 數(shù)據(jù)源類型選擇頁面

第二步,輸入數(shù)據(jù)源信息。填入 S3 數(shù)據(jù)源地址信息及數(shù)據(jù)源名稱。數(shù)據(jù)源是整理好的 csv 文件,需要事先上傳至 S3 存儲。

圖 5 數(shù)據(jù)源信息頁面

第三步,進入數(shù)據(jù)集管理頁面。系統(tǒng)自動讀取 csv 的表頭及部分數(shù)據(jù)信息,并自動根據(jù)數(shù)據(jù)類型進行分類,可以設置數(shù)值類型(數(shù)字)、文本類型(文本數(shù)據(jù))、二元類型(0 和 1)、分類類型(該列只有幾種類型時,一般可作為標識列)。trainNo 列為分類類型,其他為數(shù)值類型。設置數(shù)據(jù)類型是為了數(shù)據(jù)訓練時對數(shù)據(jù)更準確的訓練。

圖 6 數(shù)據(jù)集頁面

接下來設置 wearThickness 為預測目標,設置預測目標是為了讓機器學習服務知道最終訓練是為了得出此目標列而執(zhí)行的。

圖 7 設置預測目標頁面

最后,設置 trainNo 為標識列,標識列是為了在預測數(shù)據(jù)結果時,加上唯一標識,以便用戶將預測結果和原始目標進行比對。默認不填則會取列表的第一行作為標識列。

圖 8 設置標識列頁面

通過以上操作完成數(shù)據(jù)源的創(chuàng)建,完成后可預覽創(chuàng)建的數(shù)據(jù)源信息。

圖 9 數(shù)據(jù)源預覽頁面

5.3 模型的管理及評估

機器學習的模型創(chuàng)建前提是已經(jīng)有數(shù)據(jù)源了,根據(jù)數(shù)據(jù)源目標列,機器學習會自動選擇模型來進行數(shù)據(jù)訓練,數(shù)據(jù)類型為二元類型則對應二元模型,多類類型則對應多類模型,數(shù)值類型則對應回歸模型。并對創(chuàng)建好的模型進行評估已確定模型的適用性。

1. 新建模型。

進入【高級服務→機器學習→模型管理】,在模型管理頁面可對現(xiàn)有模型進行管理操作。

圖 10 模型管理頁面

點擊“新增模型”按鈕,進入新增模型頁面。

首先,輸入數(shù)據(jù),根據(jù)上面創(chuàng)建的數(shù)據(jù)源,選擇要訓練的數(shù)據(jù)。

圖 11 導入模型數(shù)據(jù)頁面

第二步,模型設置。根據(jù)數(shù)據(jù)源情況自動識別訓練的模型和預測目標列??梢栽O置模型名稱和模型創(chuàng)建后自動生成的評估名稱。

圖 12 模型設置頁面

第三步,容器設置,選擇云網(wǎng)絡、子網(wǎng)、實例規(guī)模和創(chuàng)建的實例數(shù)量(實例是用來進行模型訓練及預測)設置容器信息。容器信息設置完成后及模型創(chuàng)建成功。

圖 13 容器設置頁面

2. 模型評估。

模型創(chuàng)建成功后自動生成評估,機器學習服務會根據(jù)訓練的模型,評估出該模型的可適用程度,用戶可根據(jù)這個標準來衡量模型預測出來產(chǎn)生的誤差及接受的范圍程度。

在【高級服務→機器學習→評估管理】可以對新建模型進行評估。

模型評估完成后可預覽評估結果。

圖 14 模型評估結果信息

點擊圖表展示 Tab 按鈕,即可展示圖表,該圖顯示出預測數(shù)據(jù)和歷史真實數(shù)據(jù)的對比情況。

圖 15 預測數(shù)據(jù)和歷史真實數(shù)據(jù)的對比信息

從評估結果可以看到,模型的精準誤差為 0.0525(越接近 0 誤差越低),并且,通過圖表分析可以看到通過模型計算的數(shù)據(jù)與實際數(shù)據(jù)基本一致,即說明模型基本適用于本次數(shù)值預測。

5.4 預測的管理

云平臺提供預測功能,根據(jù)已經(jīng)訓練好的模型進行數(shù)據(jù)預測,根據(jù)預測的結果來輔助人工進行判斷。

進入【高級服務→機器學習→預測管理】,可對現(xiàn)有預測進行管理。

首先,選擇在前面創(chuàng)建的預測模型。

圖 16 選擇預測數(shù)據(jù)需要的模型

下一步,利用所選擇的模型,根據(jù)歷史數(shù)據(jù)進行預測,可得到預測結果。

圖 17 數(shù)據(jù)預測結果

預測值為 13.67,與歷史數(shù)據(jù)相比,兩者之間的差別標準差范圍內(nèi),可以判定預測結果基本準確。

下面是機器學習服務的demo視頻

目前,機器學習服務已經(jīng)在品高云 7.0 版本中正式發(fā)布,對政府、企業(yè)、高校等用戶而言可以通過品高云一鍵獲取機器學習的環(huán)境,而無需關心機器學習軟件安裝繁瑣、硬件環(huán)境配置困難的問題。

有意愿部署該項服務或了解更多品高云產(chǎn)品信息的客官,可以聯(lián)系溫柔可人的品高云官方客服——小表妹哦~

 

 
 

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號