以下是現場速記。
川源AFA技術及生態(tài)副總裁 翁國唐
翁國唐:各位下午好,謝謝范總,也謝謝各位今天下午蒞臨,非常榮幸代表上海川源在這邊跟大家交流。
我今天要講的是布局數據之基,贏戰(zhàn)未來商業(yè)。川源是一間國產全閃存陣列的品牌,一直致力于提供給用戶最好的數據訪問的體驗,最安全的數據管理的保護機制。川源在上還有一個研發(fā)中心,成都有一個研發(fā)中心,臺北也有一個研發(fā)中心,目前在北京、上海、成都、廈門四個地方都有辦事處或者是分公司,現在在新加坡跟英國、日本、美國都構建了辦事處,去輻射全球的銷售服務。
目前川源在全球獲得了700多個專利,2016年獲得全球閃存峰會最創(chuàng)新閃存科技大獎,這個獎項非常難得,也是國外在閃存業(yè)績的專家對于川源技術的認可。同時,我們在今年中國閃存峰會里面得到了中國閃存存儲的企業(yè)金獎。技術的該度來看,川源的全閃存存儲,目前在全球的性價比排名,依然可以排全球的前幾名,現在還是可以排在全球的第一名。在技術的深度上,我們也是目前國內少數可以跟海外的頭部企業(yè),比如說戴爾EMC,或者是惠普做技術上對比的公司。川源的技術完全由自己的團隊來做核心技術的研發(fā),所以我們也是完全可以做到自主研發(fā)的能力。
總的來講,川源的技術,是透過自己研發(fā)的專利核心技術,來去引導用戶得到更好的存儲的數據訪問體驗,我們的核心技術叫FlexiRemap,首先我們可以提供極致穩(wěn)定的過性能,這個高性能的體驗,體現在于用戶在訪問過程當中,包含了數據存儲反應的時間,或者是響應的時間,或者是在一些高性能、高并發(fā)的場景里面可以得到更快速的數據運行的能力。FlexiRemap底層獨特的寫入管理技術,可以協助用戶取得更好的性能發(fā)揮。我們在數據收到的過程當中,拆分成好幾個4KB的小數據,符合閃存科技底層落盤時的特性。同時我們拆分的過程當中產出了多層次的映射表做到數據的訪問,這樣我們數據寫入的過程當中,可以對用戶來講,既享有傳統架構下數據保護的價值,同時又可以帶來條帶式的寫入,線性性能堆疊的效應。
大家可以看到,經過我們這樣的拆分,按照底層的SSD可用的狀況做一個重新的排序之后,寫到底層SSD上的時候,會變成平均打散在底層的每一個SSD上。我們知道現在市場上有很多常見的全閃存陣列的產品,基于RAID的技術做到RAID2.0的優(yōu)化,這個優(yōu)化也是想要做到平均分散在每一個SSD上的寫入,但是顆粒度可能只能做到Block的層級,我們可以做到Page的層級,我們可以做到更細致一些,性能的支撐上也會更好。
這是跟傳統的技術做一個對比,在我們的產品上,通過我們的技術去實現寫入的分散之后,我們有效地利用每一個SSD做到性能的堆疊,讓每一個SSD的寫入,寫入的狀況是一致的,不至于有所為的熱點盤產生。如果今天發(fā)生了熱點盤的現象,首先帶來的第一個影響,有熱點盤的話,這些熱點盤大概會成為整個存儲設備性能的瓶頸。
第二件事情,這個熱點盤可能比較早到達壽命的上限,川源在技術層面上完全避免了這個熱點盤的問題。
我們的產品上面,一般市場上看到的存儲設備大概是24個盤位的設計,革委會看到,在我們的設備上面,左側SSD寫入的狀態(tài)都會相當平均,右側用傳統RAID的技術,還是會有熱點盤的產生,熱點盤的SSD會成為陣列性能的瓶頸,同時也會造成熱點盤的SSD比較早到達他的壽命的上線。
川源是目前全球唯一一家我們不需要依靠緩存技術就可以把這個存儲的性能做到100萬的級別,目前市場上常見的,不管是海外的品牌,或者是國內的品牌,大部分還是需要依靠大量的緩存的技術,您看到的可能是四個或者是八個控制器線性的堆疊,川源核心的技術,100%發(fā)揮了SSD應該要有的性能,不利用緩存機制的模式下,就可以把性能做到100萬的Iops的級別,未來在2.0的產品,通過集群可擴展式集群的表現,可以把性能做到2000萬,甚至是5000萬lops的級別。
接下來我們提供的是極致的高可靠性,數據在使用的過程當中,除了性能希望很快之外,最重要的一件事情,是數據的可靠度,不能因為追求性能而喪失了數據的可靠度,萬一有數據丟失的問題,服務中斷的問題,對企業(yè)的影響都是非常大的。因為我們自己研發(fā)的FlexiRemap技術,可以在發(fā)生故障的時候,可以把這個群組鎖定成只讀模式,避免進一步崩潰,造成數據丟失的問題。傳統的RAID技術,因為他們并不具備多層次映射表的設計,當數據保護群組里面發(fā)生故障時,還會持續(xù)讓數據往已經有故障的群組里面寫,很容易造成第二塊盤,第三塊盤進一步故障,導致數據的崩潰。在我們的數據上,把已經不健康的群組先鎖定成只讀的模式,通過映射表的機制,把這個數據全部引導到健康的群組做一個寫入,這樣就可以避免已經有故障的群組進一步崩潰,導致數據丟失的問題。
同時,提供用戶對稱式雙活高可靠度的設計,因為我們都知道,SSD和機械硬盤有不一樣的特性,SSD出廠的時候就有一個壽命上限,這個壽命是取決于他的可擦寫的次數。傳統的磁盤陣列的設計通常是兩個控制器帶一個存儲池,帶一個磁盤柜,但是在全閃存陣列的時代,如果還保有這樣的設計,風險不是存在于控制器上,而是存在于磁盤柜上,因為SSD的壽命萬一到達了上限,是沒辦法進行訪問的。再加上剛剛所提到的,如果你采用的是RAID技術,可能會有熱點盤,熱點盤會導致有幾塊SSD壽命,基本上會在同一個時間到達壽命上限。萬一你今天這個存儲池里面同時發(fā)生了兩到三塊SSD的故障,其實你的上層的控制器有多少個都沒有用。川源看到了SSD的特性,所以我們是真正對稱式雙活的高可靠度的設計,我們給到客戶是兩個獨立的存儲設備,通過我們的高速的接口,來實現實時數據同步,對于用戶來講,不管是存儲設備上的控制器故障,或者是單一存儲設備上的存儲池發(fā)生大規(guī)模的SSD的失效或者是故障,都不會造成業(yè)務訪問中斷,因為我們還有另外一個設備作為實時的備源,可以提供給你直接的業(yè)務的支撐,確保你的業(yè)務運行不會有中斷的問題。通過這個設計,可靠度可以做到六個九,一整年里面需要防范的故障的風險是低于31秒的。
同時在兩個設備之間的實時數據同步,我們依靠自己專利的技術設計,在雙副本的情況下,依然可以把延時維持在一毫秒以內,中間不需要經過緩存的技術進行數據的同步,確保使用的過程當中,不會因為突然的斷電造成數據的丟失。
FlexiRemap給客戶帶來的第三個價值,在于超長存儲生命周期,過去大家用磁盤陣列考慮這個設備買回來,大概要用五到七年左右的時間,到了七年左右,五年到七年左右,開始評估我要去更換下一代的產品,如果你用的是傳統的RAID技術,搭配現在所謂的SSD閃存新的存儲介質,你會發(fā)現也許不到五年,你可能就會開始要陸續(xù)更換這里面的SSD。因為RAID技術搭配SSD的時候,會造成底層SSD的壽命進一步被縮短。正常來講,一般各位在企業(yè)內部可能用一些數據庫的應用,或者是虛擬化的應用,三到四年左右的時間,就會面臨SSD里面的固態(tài)硬盤進行更換的問題。
川源通過自己的專利技術,我們可以去有效地延長SSD的使用壽命。專利技術我們可以通過自動學習數據使用狀況優(yōu)化數據存放位置,這個是為了去符合SSD的特性,如果他在舊有的頁面上的數據進行更新的時候,并不是直接像硬盤一樣,在同一個位置做擦寫的動作,而是找到一個新的位置,把新的數據寫入,舊的位置標志成無效的數據。可是這個無效的數據在你進行所謂的垃圾回收,空間釋放的過程之前,其實是沒辦法使用的。什么時候進行垃圾回收呢?各位看到,這個圖最左邊這一排是Block,這里面大部分的數據都變紅的時候,就會自動進行垃圾的回收,或者是另外一個情形,紅色和綠色格子交錯用滿的時候,被迫要去找一個承載紅色的Block進行垃圾的回收。川源通過自動學習的機制,把這些最經常被更新的數據集中放在一個Block里面去存放,讓我們在SSD執(zhí)行垃圾回收時所得到的負擔是非常小的。各位可以看一下,通過川源的自動學習的機制,我們把經常被更新的數據集中在一起存放的時候,SSD要進行垃圾回收的時候,可以找到Block里面大部分都是無效的數據,只有很少量的有效數據,這樣要進行垃圾回收的時候,只需要把很少量的有效數據做一個搬動,其他無效的數據可以直接清掉,這個時候對于SSD來講,性能就比較不會受到影響,同時壽命也不會受到影響。傳統的RAID技術,因為缺少了自動學習的機制,顆粒被用滿,被迫要進行垃圾回收時,里面會承載很多綠色有效的數據。這個時候就會讓SSD忙碌地搬動這些數據,導致SSD的性能下降。因為你要重復把這些綠色的數據重寫一次,就導致了SSD的壽命進一步下降。我們會說傳統的RAID技術,搭配SSD的時候,往往會讓SSD的壽命縮減40-60%。一般期待用五到七年的SSD,在搭配RAID技術時,可能三年、三年半就會開始陸續(xù)更換SSD。但是在川源的設計之下,可以確保SSD生命周期被延長,用戶使用我們的技術搭配SSD的時候,可以使用七年到十年的生命周期,可以恢復到過去采購機械硬盤磁盤陣列時所預期的一個設備用七年,甚至更長。
下面是我們一個評測的結果,各位可以看一下,這個評測怎么做?我們用相同的平臺,用了八塊200G的SSD,堆疊出大約是1.6TB的容量。測試的方式是什么?我們每一天把1.6TB的空間寫滿三次,我們連續(xù)測半年,觀察SSD耗損的狀況,最后再推算出SSD大概可以使用多久。通過這樣的測評我們可以發(fā)現,第一個,對于SSD來講,1.6TB的SSD,使用到他的壽命上限為主,可以寫入的總數據量是大于4.8PB的,這是搭載我們FlexiRemap技術的時候。如果是傳統的RAID技術,總共可寫入數據量是小于2.8TB。如果每一天重復去寫這個數據,寫三次,把1.6TB寫滿三次,在FlexiRemap技術下,依然可以保證你使用超過4.5年,但是我們都知道,每一天把這個容量,存儲設備的容量寫滿三次,這是非常極端的行為,一般數據庫的應用場景,或者是虛擬化的應用場景,或者是容器的應用場景下,其實你的SSD的寫入次數可能是不到0.7,不到0.5的。但是在這樣極致的場景下,我們都可以用到4.5年,一般的應用場景下,基本上可以保證使用7-10年都沒問題。如果是使用RAID5的技術,在這么極致的耗損之外,可能用不到兩年,就要進行整批量的更換。
另外FlexiRemap提供了豐富的存儲功能,提供給企業(yè)用戶各種不同的應用場景,可以有效地運用它。首先包含了自動精簡配置,還有高級的數據的精簡功能,閃存現在對于各位來講,有很多客戶還在觀望,原因是因為閃存的價格相對來講是比較高的,相較于一般的磁盤陣列來說,閃存的費用還是比較高。我們在數據庫,或者是虛擬化,或者是桌面虛擬化的應用場景里面,通過我們的數據的去重和壓縮,或者是深度的去重和壓縮的技術,我們是有辦法協助用戶,去把實際上落盤的數據量做到進一步的精簡。在數據庫的應用場景里面,最高的能力大概可以做到4:1,一個10TB的數據庫,在我的全閃存陣列上只耗損2.5TB的容量。如果在虛擬化或者是桌面虛擬化的場景里面,大概可以做到5:1,甚至是10:1的環(huán)節(jié),確保用戶在采購全閃存陣列的時候,可以不需要按照實際的需要采購,可以通過壓縮和去重的技術,買一個相對容量較小的全閃存陣列,協助你節(jié)省成本。
另外我們也提供了本地的快照,克隆,或者是備份到外部的存儲設備,或者是備份到共有云,或者是通過川源自帶的接口,實現遠程的復制,確保你的這些數據組能夠有多個副本,不至于因為本地IT機房發(fā)生故障,或者是發(fā)生勒索中毒的問題,導致你的業(yè)務停擺。我們都可以通過外部的備份的文件,備份的鏡像,把系統還原到沒有中毒,沒有被黑客入侵前的狀態(tài)。這些技術我們也是采用最新的設計,執(zhí)行這些設計的過程當中,不會對于系統的IO造成太大的負載,我們可以確保備份的過程時間是非常短的,對于前端業(yè)務場景的影響,不會有太大的問題,
同時,我們的產品也支持WMware,OpenStack和K8S的支持,可以是現在虛擬化平臺下一站是的管理的機制,通過K8S插件的支持,可以實現現在各位在做容器應用場景開發(fā)過程當中,把川源當成一個持久性的存儲,協助你們在各種不同的應用場景的開發(fā)過程當中,如果有迭代更新的需求時,你可以使用原有的數據來去進行不同版本的測試和實驗。
接下來跟各位介紹一下川源的全閃存陣列目前在制作也當中的應用場景有哪些,首推的是數據庫的應用,因為數據庫本身就是大量的細碎的數據的使用,數據庫的應用場景里面選擇上海川源的有五個理由。一是性能非常好,我們在數據庫的應用場景里面可以提供超過250萬TPM的性能。第二個是免停機,而且非常高的可靠度,因為我們的對稱式雙活搭配上層,不管是Oracle的RAC或者是集群架構,都可以實現所謂的近端的數據庫雙活的方案。第三個是通過數據減量的方式降低你在存儲設備上的采購成本。
第四是投資報酬與維護成本上,原因是因為川源的全閃存陣列目前在全球的性價比排名非??壳?,我們在整體的運維成本上,也可以協助用戶進一步降低,我們可以把SSD壽命延長得非常長,采購川源設備之后,七年甚至十年的時間,都不需要對這個設備進行SSD的更換,可以降低設備維護上投入的硬件成本。第五個特色是操作簡單,他的架構也很單純,我們基本上兼容國內大部分數據庫主流的架構,而且你不需要進行任何的調整,只需要單純把原有的設備升級成川源的全閃存陣列,就可以體驗到性能上的提升。
這邊是評測的數據,左邊是采用Oracle的數據庫搭配20顆企業(yè)級SAS萬轉硬盤性能表現,大概是在48萬次左右,右邊是把同樣的環(huán)境,存儲設備升級成川源的全閃存陣列,立刻升級到了240萬次左右的TB,每分鐘在線數據交易量,這個240萬次還不到川源存儲性能的極限,我們自己內部實際去評測過,這樣的性能只耗用了川源性能的1/10。
這個架構就是所謂的服務不中斷,我們通過我們的對稱式雙活,兩臺設備部署在不同的機柜,或者是在近端機房,不同的機房里面,可以去做到搭配上層的Oracle的RAC服務器,可以做到服務不中斷的功能。在這樣的設計之下,即便是一個機柜里面突然的斷電,或者是鏈路突然掉線,都不會有數據庫停機的問題,因為另外一套機柜里面的設備都還能提供實際運行服務。
在制造業(yè)里面,其實我們有蠻多客戶,他們最后選擇MES系統里面的數據庫運行在川源的全閃存陣列上,通過我們的性能做到MES生產執(zhí)行系統里面良率分析效率的提升,數據清洗效率的提升。
這個是某一個客戶導入之后的效益,以前做良率報表統計,數據庫查詢的過程當中,耗時比較長一點,通過全閃存陣列做到性能的升級,提升的效率大概有6倍、18倍、90倍的時間,可以大幅縮短生產管理人員做良率分析時耗用的時間。
另外跟各位分享一下,我們在蘇州地區(qū)有一個實際的客戶,在MES系統里面做過實測,對比的是蠻知名的海外品牌,品牌的名字我就不透露了,這個客戶是蘋果的一個供應商,他要做的事情其實很簡單,MES系統需要讓蘋果來做良率的查詢,整個測試的方法,把兩邊的環(huán)境搭配一樣的客戶端做一個對比,各位可以看到,川源這邊的產品,能夠響應的時間比原有海外知名的品牌全閃存陣列產品來得短很多。像檢索的時間,川源只花到差不多2秒以內的時間就可以完全響應出來。
另外是豐田汽車,或者是優(yōu)衣庫在越南的生產工廠,也用了川源的產品服務他們的MES系統的工具,也做到一些大數據分析的應用。
同時我們也支持虛擬化和云計算的應用,像我們的虛擬化這一塊兒,支持了VMware VAAI及Windows ODX插件,這個跟傳統的廠商他們支持這兩個不一樣,我們支持的過程當中協助各位做了一個去重,讓我們在克隆虛機的時間可以打幅縮短。有一個知名的大學,通過導入全閃存陣列,原本要花好幾個小時才能把虛機做完克隆,現在通過這個技術,可以把時間縮短到幾分鐘。備份和還原的時間原本也是幾個小時,做完之后,縮短到大概20分鐘。每分鐘在線數據交易量原本只有20幾萬,通過我們的產品,可以把這個性能提升到130多萬。
另外在AI人工智能的應用場景里面,像是剛剛所提到的,我們有跟容器做一些對接,我們也跟生態(tài)圈的合作伙伴一起合作打造了一個AI-Stack專用的算力云。里面很簡單,高性能的計算,人工智能、機器學習的過程當中所需要的高并發(fā)的場景,通過川源的全閃存陣列協助做到加速,如果是海量數據的話,采用市場上分布式的解決方案,這些數據以對象存儲的方式做一個分配。機器學習的平臺,上手之后其實很快,其實不太需要人工智能的開發(fā)人員做太多的操作系統的部署,或者是算力框架的部署,只需要在平臺上點擊他所需要的算力的資源,這個平臺就可以快速的把這個資源交付到這些人工智能的開發(fā)人員手上,他可以快速地進行不同版本的比較,不同版本的學習,而且可以無縫銜接人工智能和機器學習開發(fā)人員他們常用的工具,意味著就不需要重新再去學習這些工具,可以快速享受。
通過這些平臺,GPU的服務器搭配川源的全閃存陣列產品,再加上環(huán)境,我們協助國內頭部的人工智能的企業(yè),做到算法訓練耗時的縮短,縮短的耗時是30%左右。左邊是川源的全閃存陣列,執(zhí)行他們的框架測試時所需要的耗損的時間,對比他原本使用Lustre高性能計算的集群環(huán)境,或者是采用開源CEPH分布式的場景,都可以把時間縮得非常短。
他們給到我們的評價,目前是他們實測過所有存儲產品里面效果最好的,其實我們在我們的存儲設備上,也把他們在業(yè)務網所使用的網絡環(huán)境的帶寬上限,測到一個極限。他今天把業(yè)務網的網絡環(huán)境再做一個升級的話,算法訓練的耗時還可以進一步縮短。
我們都知道工業(yè)互聯網,數據是至關重要的事情,川源希望通過我們的專利技術,協助各位在建立數據應用平臺,應用場景時,可以依靠川源的技術,獲得更好的效率的提升,獲得更高的可靠度,保障業(yè)務持續(xù)運行。早上余總提到的數字孿生,或者是自動化的生產,大部分都是需要依靠大量數據的交互作用,甚至自動化生產的過程當中,有一些人工智能的機器學習,要去做到流程的改善,都可以通過川源的產品協助各位做到效率的加分。
感謝各位的時間,希望會后如果有需求的話,川源的攤位就在外面,靠近電梯口的地方,歡迎各位到我們的攤位多多交流,謝謝!