一家公司的云平臺在一個周末發(fā)生故障,該公司云計算運營團隊試圖研究和探討發(fā)生了什么問題。似乎有幾個系統(tǒng)與一個先進的新的庫存管理系統(tǒng)相關,這個系統(tǒng)啟用了機器學習,但出現(xiàn)了問題。對其進行檢測之后的結論如下:
•將原始數(shù)據(jù)從運營數(shù)據(jù)庫移動到訓練數(shù)據(jù)庫的批處理以及自動恢復過程失敗。而在周末工作的運維團隊成員試圖重新提交,但并不是一次性全部提交,而是進行了四次更新,導致訓練數(shù)據(jù)庫處于不穩(wěn)定狀態(tài)。
•這導致機器學習系統(tǒng)中的知識模型使用錯誤的數(shù)據(jù)進行訓練,并要求刪除知識庫中的新信息,并重建模型。
•此外,一些外部數(shù)據(jù)饋送(例如定價和稅務數(shù)據(jù))同時更新到訓練數(shù)據(jù)庫。盡管這些工作正常,但考慮到運營數(shù)據(jù)不是很好,也需要退出知識庫。
•該系統(tǒng)兩天內無法使用,考慮到生產(chǎn)力下降、客戶不滿以及公關問題,使該公司損失了400萬美元。
隨著企業(yè)越來越多地使用“物美價廉”的基于云計算的機器學習系統(tǒng),人們發(fā)現(xiàn)利用機器學習的系統(tǒng)操作起來非常復雜。企業(yè)運營小組希望降低困難程度和復雜性,但發(fā)現(xiàn)面臨訓練不足、人手不足和資金不足的問題。
云計算運營團隊可以通過相當容易的轉換來處理基于云計算的數(shù)據(jù)庫、存儲、計算??紤]到基于云計算的系統(tǒng)與傳統(tǒng)系統(tǒng)類似,大多數(shù)情況都是如此。
但是,運營團隊在很大程度上還沒有采用基于機器學習的系統(tǒng)。這些系統(tǒng)具有專門的用途,以及必須以某種方式監(jiān)視和管理的專用系統(tǒng),如數(shù)據(jù)庫和知識引擎。這是當前運營團隊失敗的地方。
這種情況很容易理解,但大多數(shù)企業(yè)都不會喜歡,因為它意味著花費更多資金用于機器學習的云計算運營,可能導致放棄。機器學習系統(tǒng)是一種技術鏈,如果小心使用,它們非常有效。如果處理不當,可能無法檢測到故障,將會很危險。如果系統(tǒng)使用由此產(chǎn)生的錯誤知識,那么最終可能會出現(xiàn)嚴重的問題,而在造成很大的損害之前,這些問題可能無法被發(fā)現(xiàn)。似乎其風險大于回報。