對象存儲適合人工智能和機器學習的三個原因

責任編輯:cres

作者:Gary Ogasawara

2020-06-02 11:00:04

來源:企業(yè)網D1Net

原創(chuàng)

如今,各種類型的企業(yè)都致力于采用人工智能和機器學習項目,但要發(fā)揮其真正的潛力,則需要克服重大的技術障礙。雖然計算基礎設施通常是重點,但存儲設施也同樣重要。

如今,各種類型的企業(yè)都致力于采用人工智能和機器學習項目,但要發(fā)揮其真正的潛力,則需要克服重大的技術障礙。雖然計算基礎設施通常是重點,但存儲設施也同樣重要。以下是對象存儲(而不是文件或塊存儲)適用在加強人工智能和機器學習工作負載的三個主要原因:
 
1.可擴展性
 
當有大量不同的數(shù)據源可供學習時,采用人工智能和機器學習技術最有效。數(shù)據科學家利用這些豐富的數(shù)據來訓練領域模型。在“大數(shù)據的五個V”(數(shù)量、類型、速度、準確性和價值)中,前兩個(數(shù)量和類型)最為重要。簡而言之,人工智能和機器學習依賴于大量不同的數(shù)據(圖像、文本、結構化和半結構化數(shù)據)來構建有用的模型,提供準確的結果,并最終提供業(yè)務價值。
 
對象存儲是最具擴展性的存儲架構,特別適合支持人工智能和機器學習所需的大量數(shù)據。對象存儲旨在通過水平擴展方法實現(xiàn)無限增長,從而使企業(yè)可以通過在需要的位置和時間添加節(jié)點來增加部署。由于對象存儲使用單個全局名稱空間,因此也可以一次在多個地理位置上進行這種擴展。另一方面,文件和塊系統(tǒng)通常采用擴展方法。這意味著這些平臺通過向單個節(jié)點添加更多計算資源來實現(xiàn)垂直擴展,這最終會受到限制。他們無法通過部署其他節(jié)點來增加計算資源,從而無法有效地水平擴展。
 
2. API
 
健壯靈活的數(shù)據API對于人工智能和機器學習非常重要,如上所述,它們使用了多種數(shù)據類型。存儲平臺需要支持API來容納各種數(shù)據。此外,人工智能和機器學習的創(chuàng)新越來越多地在公共云上進行,但是仍然有相當一部分人工智能和機器學習在內部部署數(shù)據中心或私有云中發(fā)生,這取決于用例的具體情況(例如,科學研究和醫(yī)療保健等領域通常最適合私有云)。這意味著組織需要一個存儲API,以支持公共云和本地/私有云中的工作負載。
 
文件和塊存儲平臺所支持的API受限制,部分原因是它們是較舊的架構。相比之下,對象存儲使用云平臺中固有的高級API,該API設計為以應用程序為中心,與文件和塊存儲相比,它支持范圍更廣的API,其中包括版本控制、生命周期管理、加密、對象鎖定和元數(shù)據。此外,支持人工智能和機器學習用例的新對象存儲API(例如對流數(shù)據的支持和對海量數(shù)據集的查詢的支持)也是可能的。
 
通過圍繞Amazon S3的對象存儲API的標準化,可以更輕松地在內部部署和公共云中集成軟件。企業(yè)可以輕松地將人工智能和機器學習部署從內部部署/私有云環(huán)境擴展到公共云,或者將云原生的人工智能和機器學習工作負載遷移到內部部署環(huán)境,而不會損失功能。這種雙模式方法使組織可以合作且可互換地利用內部部署/私有云和公共云資源。
 
由于S3 API已成為對象存儲的事實上的標準,因此許多軟件工具和庫都可以利用該API。這允許共享代碼、軟件和工具,以促進人工智能和機器學習社區(qū)中更快的開發(fā)。示例包括流行的機器學習平臺,例如具有內置S3 API的TensorFlow和Apache Spark。
 
3.元數(shù)據
 
與API一樣,使用人工智能和機器學習的組織必須利用無限的可自定義的元數(shù)據,這一點至關重要。元數(shù)據只是關于數(shù)據的數(shù)據,在最基本的層面上,是在何時何地創(chuàng)建的數(shù)據,以及是誰創(chuàng)建的數(shù)據。但是元數(shù)據可以描述更多內容:用戶可以創(chuàng)建任意的元數(shù)據標記來描述他們想要的任何屬性。
 
數(shù)據科學家需要豐富的元數(shù)據來查找特定數(shù)據以構建和使用其人工智能和機器學習模型。隨著更多信息添加到數(shù)據中,元數(shù)據注釋可逐步積累知識。
 
文件和塊存儲僅支持有限的元數(shù)據,例如上述基本屬性。這在很大程度上可以歸結為可擴展性,因為文件和塊系統(tǒng)未配備快速無縫的增長功能,如果存儲系統(tǒng)支持依賴大量數(shù)據集的人工智能和機器學習應用程序的豐富元數(shù)據,則自然會發(fā)生這種情況。但是,對象存儲支持無限的、完全可自定義的元數(shù)據,從而使查找用于人工智能和機器學習算法的數(shù)據更加容易,并從中獲得更好的見解。
 
以一家醫(yī)院在X光圖像上使用圖像識別應用程序為例:使用元數(shù)據,可以使用TensorFlow模型分析添加到對象存儲系統(tǒng)中的每個圖像,然后為每個圖像分配更加精細的元數(shù)據標簽(例如,損傷類型、基于骨骼大小或生長的患者年齡或性別等)。TensorFlow模型可以在元數(shù)據上進行訓練,并對其進行分析,得出新的患者見解(例如與五年前相比,如今20歲到30歲的婦女患上的骨科疾病更多)。
 
幾乎每一家財富500強公司都在考慮采用人工智能和機器學習,可以想象這些技術將在可預見的將來成為最重要的企業(yè)IT計劃。然而,要使人工智能和機器學習計劃獲得回報,企業(yè)必須利用正確的存儲基礎設施。對象存儲由于其可擴展性、對各種API(特別是S3)的支持以及豐富的元數(shù)據,是人工智能和機器學習的最佳支柱。
 
版權聲明:本文為企業(yè)網D1Net編譯,轉載需注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號