隨著物聯(lián)網(wǎng)和大數(shù)據(jù)的應(yīng)用與發(fā)展,企業(yè)中的數(shù)據(jù)量每天都在增加,因此需要了解如何滿足這些新的IT計(jì)劃的存儲(chǔ)需求。
從冰箱到汽車,物聯(lián)網(wǎng)涉及幾乎所有配置傳感器的所有設(shè)備,并通過(guò)互聯(lián)網(wǎng)連接將數(shù)據(jù)傳輸?shù)街醒氪鎯?chǔ)庫(kù)進(jìn)行存儲(chǔ)。一旦存在,它就成為大數(shù)據(jù)的一部分,這是對(duì)所有信息的分析。
然而,大數(shù)據(jù)的應(yīng)用遠(yuǎn)遠(yuǎn)超出了物聯(lián)網(wǎng)(IoT)。大數(shù)據(jù)項(xiàng)目可以分析來(lái)自傳統(tǒng)或現(xiàn)代數(shù)據(jù)庫(kù)甚至非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)。大數(shù)據(jù)還可以將傳感器收集的看似無(wú)關(guān)的信息與傳統(tǒng)數(shù)據(jù)庫(kù)中的信息相關(guān)聯(lián),以提高組織效率。例如,交通運(yùn)輸公司可以在其車輛中使用傳感器來(lái)引導(dǎo)駕駛員選擇提高運(yùn)輸效率和降低燃料成本的路線。
采用大數(shù)據(jù)或物聯(lián)網(wǎng)項(xiàng)目的好處可以提高生產(chǎn)力,更好的健康或更加愉快的生活。隨著用戶對(duì)這一概念越來(lái)越適應(yīng),這些技術(shù)允許安裝越來(lái)越少的設(shè)備,數(shù)據(jù)組織的收集量呈指數(shù)增長(zhǎng)。人們面臨的挑戰(zhàn)是如何存儲(chǔ)這種數(shù)據(jù),因?yàn)槠湓陬愋秃蛿?shù)量上與傳統(tǒng)存儲(chǔ)數(shù)據(jù)明顯不同。
存儲(chǔ)需要一個(gè)大數(shù)據(jù)和物聯(lián)網(wǎng)項(xiàng)目
從存儲(chǔ)的角度來(lái)看,物聯(lián)網(wǎng)和大數(shù)據(jù)是相似的,但他們有不同的需求。物聯(lián)網(wǎng)項(xiàng)目的存儲(chǔ)響應(yīng)取決于用例。對(duì)于傳感器,物聯(lián)網(wǎng)存儲(chǔ)系統(tǒng)需要同時(shí)處理來(lái)自數(shù)百萬(wàn)個(gè)傳感器的快速輸入。因?yàn)檫@些傳感器產(chǎn)生的數(shù)據(jù)通常很小,所以目標(biāo)存儲(chǔ)系統(tǒng)需要存儲(chǔ)可能達(dá)到數(shù)萬(wàn)億個(gè)小文件,而不會(huì)影響性能。
但物聯(lián)網(wǎng)項(xiàng)目的數(shù)據(jù)還可以包括來(lái)自攝像機(jī)或無(wú)人機(jī)的監(jiān)視圖像。此數(shù)據(jù)類型通常是連續(xù)流,因此其存儲(chǔ)取決于高帶寬和存儲(chǔ),這需要比傳感器用例更少但卻大得多的大容量文件的能力。而這種挑戰(zhàn)更加令人生畏的是,組織為這兩種物聯(lián)網(wǎng)用例都需要提供更大的存儲(chǔ)空間。
從大數(shù)據(jù)的角度來(lái)看,存儲(chǔ)系統(tǒng)需要訪問(wèn)物聯(lián)網(wǎng)項(xiàng)目創(chuàng)建的所有或至少大部分?jǐn)?shù)據(jù)。組織還可以使用大數(shù)據(jù)項(xiàng)目來(lái)分析現(xiàn)有數(shù)據(jù)庫(kù)和其他非結(jié)構(gòu)化數(shù)據(jù),以及關(guān)聯(lián)不同的數(shù)據(jù)集。
到目前為止,大數(shù)據(jù)最常見的基礎(chǔ)是Hadoop文件系統(tǒng)。Hadoop文件系統(tǒng)(HDFS)創(chuàng)建處理服務(wù)器集群,并將分析作業(yè)分配給集群中任務(wù)量最少的節(jié)點(diǎn)。其意圖是節(jié)點(diǎn)需要分析的數(shù)據(jù)在該節(jié)點(diǎn)上都是本地?cái)?shù)據(jù)。這種情況消除了對(duì)昂貴的網(wǎng)絡(luò)基礎(chǔ)設(shè)施的需要,并能夠使用低成本的服務(wù)器級(jí)存儲(chǔ)設(shè)備,而不是昂貴的共享企業(yè)級(jí)存儲(chǔ)設(shè)備。
物聯(lián)網(wǎng)和大數(shù)據(jù)的數(shù)據(jù)占用和存儲(chǔ)I/O的要求與傳統(tǒng)數(shù)據(jù)中心應(yīng)用并不相同。首先,物聯(lián)網(wǎng)數(shù)據(jù)通常是連續(xù)饋送。數(shù)據(jù)大小可以從小到大,而所需要存儲(chǔ)的文件數(shù)量可以達(dá)到數(shù)萬(wàn)億。這使其更容易快速創(chuàng)建大量的數(shù)據(jù),其結(jié)果是存在對(duì)容量增長(zhǎng)的持續(xù)需求。
這種增長(zhǎng)必須快速擴(kuò)張,并且不會(huì)造成破壞。物聯(lián)網(wǎng)項(xiàng)目的存儲(chǔ)系統(tǒng)還需要成本有效地?cái)U(kuò)展,以便組織能夠長(zhǎng)時(shí)間存儲(chǔ)PB級(jí)數(shù)據(jù)。這需要更低的管理成本和負(fù)擔(dān)。大多數(shù)IT人員根本無(wú)法管理來(lái)自六個(gè)不同供應(yīng)商的十幾個(gè)存儲(chǔ)系統(tǒng)。IT專業(yè)人員需要將其存儲(chǔ)硬件要求推廣到一至三個(gè)涵蓋一級(jí)和二級(jí)應(yīng)用程序的存儲(chǔ)系統(tǒng),以及物聯(lián)網(wǎng)和大數(shù)據(jù)創(chuàng)建的大量非結(jié)構(gòu)化數(shù)據(jù)。
尋找到物聯(lián)網(wǎng)項(xiàng)目挑戰(zhàn)的答案
物聯(lián)網(wǎng)和大數(shù)據(jù)的應(yīng)用為IT專業(yè)人員帶來(lái)了一系列挑戰(zhàn)。物聯(lián)網(wǎng)有兩種不同的文件存儲(chǔ)需求,大多數(shù)組織最終都需要這兩者。第一個(gè)需要隨機(jī)攝取數(shù)萬(wàn)億的小文件。第二個(gè)需要高得多的帶寬流的文件,只是數(shù)量少得多,但卻大得多。單個(gè)存儲(chǔ)系統(tǒng)極少提供這兩種功能。通常,它們被調(diào)整為處理數(shù)萬(wàn)億的小文件或調(diào)整為大型的流文件。
從大數(shù)據(jù)的角度來(lái)看,存儲(chǔ)系統(tǒng)需要訪問(wèn)物聯(lián)網(wǎng)項(xiàng)目創(chuàng)建的所有或至少大部分?jǐn)?shù)據(jù)。
大數(shù)據(jù)項(xiàng)目帶來(lái)了另一組挑戰(zhàn)。首先,來(lái)自物聯(lián)網(wǎng)項(xiàng)目的大部分(如果不是全部)數(shù)據(jù)需要轉(zhuǎn)移到Hadoop集群進(jìn)行分析。第二,Hadoop集群必須能夠訪問(wèn)業(yè)務(wù)中的傳統(tǒng)數(shù)據(jù),例如數(shù)據(jù)庫(kù)和用戶數(shù)據(jù)。此外,HDFS本身也有挑戰(zhàn)。例如,單個(gè)節(jié)點(diǎn)負(fù)責(zé)分析作業(yè)分配。它還存儲(chǔ)群集的所有元數(shù)據(jù)。如果該節(jié)點(diǎn)關(guān)閉,整個(gè)集群可能會(huì)失敗。
組織還面臨Hadoop的本地存儲(chǔ)設(shè)計(jì)的挑戰(zhàn)。通過(guò)在節(jié)點(diǎn)之間復(fù)制數(shù)據(jù)副本來(lái)進(jìn)行數(shù)據(jù)保護(hù)。大多數(shù)組織將選擇三方復(fù)制作為默認(rèn)值。這意味著從容量角度看,這些挑戰(zhàn)將會(huì)乘以三倍,再加上已經(jīng)駐留在物聯(lián)網(wǎng)存儲(chǔ)系統(tǒng)上的數(shù)據(jù),這對(duì)容量提出了更高的要求。
Hadoop設(shè)計(jì)中的另一個(gè)挑戰(zhàn)是,集群中處理作業(yè)的最可用節(jié)點(diǎn)實(shí)際上可能不會(huì)在其上存儲(chǔ)數(shù)據(jù)。這意味著作業(yè)將具有處理其能力較差的節(jié)點(diǎn),或者該作業(yè)需要將數(shù)據(jù)傳送到最有能力的節(jié)點(diǎn)。
然后,其核心問(wèn)題變成:?jiǎn)蝹€(gè)存儲(chǔ)系統(tǒng)可以解決所有這些問(wèn)題嗎?答案取決于用例。對(duì)象存儲(chǔ)系統(tǒng)顯然是用于物聯(lián)網(wǎng)數(shù)據(jù)的后端存儲(chǔ)設(shè)備。經(jīng)驗(yàn)告訴人們,對(duì)象存儲(chǔ)系統(tǒng)經(jīng)足夠支持Hadoop環(huán)境。
對(duì)于物聯(lián)網(wǎng)環(huán)境,對(duì)象存儲(chǔ)系統(tǒng)善于處理高要求的文件對(duì)象計(jì)數(shù)環(huán)境。大多數(shù)對(duì)象存儲(chǔ)系統(tǒng)也可以是用于Hadoop環(huán)境的后端存儲(chǔ)設(shè)備,通過(guò)Amazon簡(jiǎn)單存儲(chǔ)設(shè)備的兼容性,或在某些情況下,本機(jī)提供HDFS支持。為Hadoop基礎(chǔ)設(shè)施提供共享存儲(chǔ)后端增加了網(wǎng)絡(luò)延遲,但它減輕了單個(gè)主要控制節(jié)點(diǎn)的負(fù)擔(dān)。它還消除了對(duì)3倍復(fù)制的需要,因?yàn)榇蠖鄶?shù)對(duì)象存儲(chǔ)系統(tǒng)使用基于奇偶校驗(yàn)的數(shù)據(jù)保護(hù)方案,例如擦除編碼。
使用對(duì)象存儲(chǔ)系統(tǒng)的另一個(gè)優(yōu)點(diǎn)是物聯(lián)網(wǎng)設(shè)備可以直接將數(shù)據(jù)發(fā)送到Hadoop環(huán)境使用的同一存儲(chǔ)設(shè)備中。數(shù)據(jù)的共享意味著容量消耗的減少,并且不浪費(fèi)等待數(shù)據(jù)在物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)設(shè)備和Hadoop存儲(chǔ)設(shè)備之間傳輸?shù)臅r(shí)間。
該設(shè)計(jì)面臨的挑戰(zhàn)是數(shù)據(jù)中心可能仍然需要為其生產(chǎn)應(yīng)用環(huán)境提供另一個(gè)存儲(chǔ)系統(tǒng)。組織還可能需要存儲(chǔ)和處理來(lái)自IP攝像機(jī)和類似物聯(lián)網(wǎng)設(shè)備的視頻數(shù)據(jù)。如果是這種情況,那么一些對(duì)象存儲(chǔ)系統(tǒng)可能并不合適;調(diào)整其他存儲(chǔ)系統(tǒng)以同時(shí)有效地處理大文件和小文件不是最佳的選擇。
超越對(duì)象存儲(chǔ)
數(shù)據(jù)中心內(nèi)的協(xié)議開始混合。市場(chǎng)上的許多存儲(chǔ)系統(tǒng)可以提供各種協(xié)議支持,包括對(duì)象,網(wǎng)絡(luò)文件系統(tǒng)(NFS),服務(wù)器消息塊(SMB),全球互聯(lián)網(wǎng)小型計(jì)算機(jī)系統(tǒng)接口(iSCSI)甚至光纖信道(FC)。
每個(gè)協(xié)議對(duì)不同的用例執(zhí)行良好。例如,采用光纖信道(FC)是關(guān)鍵任務(wù)數(shù)據(jù)庫(kù)的理想選擇,但對(duì)于Tier2和Tier3應(yīng)用程序而言,它們通常被認(rèn)為過(guò)于昂貴。全球互聯(lián)網(wǎng)小型計(jì)算機(jī)系統(tǒng)接口(iSCSI)通常是較低優(yōu)先級(jí)應(yīng)用程序的首選協(xié)議。網(wǎng)絡(luò)文件系統(tǒng)(NFS)非常適合高性能文件共享,并且正在獲得作為虛擬機(jī)映像存儲(chǔ)區(qū)域的牽引力。即使對(duì)于大數(shù)據(jù)或物聯(lián)網(wǎng)項(xiàng)目,有時(shí)網(wǎng)絡(luò)文件系統(tǒng)(NFS)也比對(duì)象存儲(chǔ)更合適。
大多數(shù)數(shù)據(jù)中心將必須選擇至少一個(gè)存儲(chǔ)系統(tǒng)對(duì)其主要存儲(chǔ)系統(tǒng)進(jìn)行補(bǔ)充。雖然對(duì)象存儲(chǔ)正在引起人們更的關(guān)注,但高性能和高性價(jià)比的NFS/SMB解決方案正在回歸。這些系統(tǒng)像對(duì)象存儲(chǔ)系統(tǒng)一樣向外擴(kuò)展,通常具有類似的擦除編碼類型的數(shù)據(jù)保護(hù),并支持各種協(xié)議。在某些情況下,他們可以執(zhí)行所有上述操作。
組織選擇哪種策略,將取決于他們期望管理的物聯(lián)網(wǎng)類型和大數(shù)據(jù)以及項(xiàng)目的范圍。另一個(gè)考慮因素是其當(dāng)前存儲(chǔ)資產(chǎn)的年限和適用性,以解決物聯(lián)網(wǎng)和大數(shù)據(jù)問(wèn)題。如果數(shù)據(jù)中心的當(dāng)前生產(chǎn)存儲(chǔ)支持Tier1和Tier2應(yīng)用程序的高性能要求,則在后端添加對(duì)象存儲(chǔ)可能是理想的。
如果Tier1和Tier2應(yīng)用程序的性能要求稍微有些偏差,那么提供所有協(xié)議的單一存儲(chǔ)基礎(chǔ)設(shè)施可能會(huì)受到關(guān)注。雖然這些更通用的系統(tǒng)不能表現(xiàn)得如同集中式系統(tǒng),但是它們通常為典型的數(shù)據(jù)中心提供足夠的性能。此外,他們提供了整合到單個(gè)存儲(chǔ)系統(tǒng)的好處。其結(jié)果應(yīng)當(dāng)是更低的成本,操作更為簡(jiǎn)單性。
物聯(lián)網(wǎng)和大數(shù)據(jù)可以改變組織如何開展業(yè)務(wù)的方式。這二者的組合可以提供的洞察力使得企業(yè)能夠顯著地改進(jìn)其創(chuàng)建新產(chǎn)品和響應(yīng)客戶的方式。但這些舉措對(duì)IT基礎(chǔ)設(shè)施,特別是存儲(chǔ)系統(tǒng)將會(huì)產(chǎn)生重大的影響。
IT專業(yè)人員需要一個(gè)大數(shù)據(jù)和物聯(lián)網(wǎng)項(xiàng)目的戰(zhàn)略,使存儲(chǔ)基礎(chǔ)設(shè)施充分發(fā)揮其潛力。而正確地選擇產(chǎn)品可以滿足挑戰(zhàn),無(wú)論是數(shù)量龐大的文件和高容量文件,還是綜合存儲(chǔ)系統(tǒng)。