由于內部分析基礎設施的容量已達到極限,總部設于俄亥俄州克利夫蘭市的KeyBank銀行已轉向云計算,這家大型區(qū)域銀行認為此舉將明顯提升性能并且很有可能節(jié)省成本,但此舉要求他們對公司培訓和管理用戶的方式進行反思。
該銀行每晚處理約40億條記錄。數(shù)據(jù)被加載到Hadoop數(shù)據(jù)湖中,然后被下放到40多個下游系統(tǒng),包括Teradata所使用的10到12個數(shù)據(jù)集市。KeyBank銀行的首席數(shù)據(jù)官,部門首席信息官兼企業(yè)架構主管Mike Onders說:“這是流行于當下且傳統(tǒng)的內部部署體系結構。我們在Hadoop數(shù)據(jù)湖環(huán)境中擁有數(shù)以拍字節(jié)計的數(shù)據(jù),在Teradata環(huán)境中擁有30多拍字節(jié)的數(shù)據(jù)。”
該系統(tǒng)可以為400個SAS和Teradata用戶以及4000個Tableau用戶提供服務,雖然它運行十分順暢,但是一年多以前,KeyBank銀行的Teradata設備開始達到容量極限。
Onders說:“硬件設計本身仍然可以執(zhí)行預期的工作:即高性能的分析。但是在內部部署的基礎設施中,你需要控制容量。由于你沒有讓容量發(fā)生變化,因此性能將根據(jù)不同的負載而變化”。對KeyBank銀行而言,這意味著在執(zhí)行月末和季度末任務時會遇到性能和排隊方面的問題。
此外,Onders的團隊預計,KeyBank銀行需要在2021年使其Teradata環(huán)境煥然一新,而這正是KeyBank銀行想極力避免卻終將發(fā)生的事情。從那一刻起,Onders和他的團隊要做這樣一個決策,即把銀行的分析數(shù)據(jù)遷移到云端是否是更好的選擇。
遷移到云端
在2018年底,Onders的團隊使用云數(shù)據(jù)平臺Snowflake推出了一個概念驗證(PoC),隨后在2019年初使用Google Cloud Platform推出了概念驗證。他承認Snowflake在性能方面略有優(yōu)勢,但Google Cloud Platform承諾單個供應商的架構就可以管理ETL、可視化、數(shù)據(jù)存儲、數(shù)據(jù)訪問和機器學習,因此谷歌成了KeyBank銀行的不二之選。
KeyBank銀行現(xiàn)在在谷歌生態(tài)系統(tǒng)的各個測試階段擁有五個數(shù)據(jù)集市,Onders的團隊發(fā)現(xiàn)其查詢性能比該銀行的本地查詢快三四倍。但是KeyBank銀行的高級副總裁兼企業(yè)體系結構以及企業(yè)數(shù)據(jù)和信息服務總監(jiān)Onders和Doug Kanouff不約而同地指出,滿負荷呈現(xiàn)數(shù)據(jù)將成為真正的考驗。
Kanouff說:“我們已經調查了許多集市和用戶,以獲取其正在執(zhí)行的指示性查詢。我們正在實時運行這些數(shù)據(jù)。因此,我們可以將實際數(shù)據(jù),實際數(shù)據(jù)量用于這些比較查詢。到目前為止,這種做法挺不錯的。但是,一旦數(shù)據(jù)呈現(xiàn)滿載,批量執(zhí)行就會啟動,最終用戶的查詢也會生成,一切將顯得與眾不同,我們必須做出反應并深入研究這些卷的內容,以確保環(huán)境能夠按需運行。”
培訓人們對成本進行細微調整
進行這一轉變可謂困難重重,也許最大的困難就體現(xiàn)在業(yè)務流程和文化方面。Google Cloud前景無量,因為它幾乎提供了無限的容量。但這也意味著從性能可變的固定成本模型轉變?yōu)槌杀究勺兊娜萘磕P汀?/div>
Onders說:“我們必須非常認真地對這種轉變進行管理和監(jiān)督,因為我認為我們財務團隊的高層領導者并不需要真正的可變成本模型。他們希望能夠預測下個月和此后一個月的費用是多少。”
使用Google BigQuery,你需要為每個查詢付費,而費用則取決于查詢所需訪問的數(shù)據(jù)量。在內部部署的Teradata或Hadoop環(huán)境中,如果某個用戶對為期三年的交易數(shù)據(jù)運行了一個錯誤的測試查詢,而他本可以使用為期30天的交易數(shù)據(jù),則成本不會發(fā)生變化。但這將消耗大量的算力,并且其他用戶可能會在查詢運行時遇到性能不夠用的問題,僅此而已。由于使用了BigQuery,這不會影響其他用戶的性能,但需要花錢。
Onders說:“在谷歌的環(huán)境中,我們必須實施更多的監(jiān)視和培訓并確保這樣一件事,既然人們可以以不同的方式做事,那么他們就不要做任何勞民傷財?shù)氖虑椤?rdquo;
許多用戶還必須接受培訓,從而使他們能以不同的方式工作。尤其是SAS用戶,他們要找到自己所需的數(shù)據(jù),將其復制并加載到分析工作區(qū)中。但是谷歌對數(shù)據(jù)出口收取費用(大多數(shù)云提供商也一樣)。在本地環(huán)境中,復制這些數(shù)據(jù)集不會增加成本,盡管這確實會造成數(shù)據(jù)一致性和治理方面的問題。要成功遷移到Google Cloud就必須對這些用戶進行培訓,使他們能夠對數(shù)據(jù)進行分析。
Onders說:“在遷入谷歌時,我們將在所謂的‘數(shù)據(jù)學院’上投入更多的資金。不僅要聘請精通數(shù)據(jù)的人,而且還要培訓人員,對其進行認證,讓他們回答實際問題,讓他們在筆記本電腦上貼上標簽,以表明他們知道如何使用我們的客戶端分析市場,交易市場或風險市場。你“已經通過了認證,我們已經教給你更好的使用途徑,因為我不想在Google Cloud普及人們在大型機SAS架構已經習慣了的同一個模式。”
Kanouff補充說:“最大的成本考量因素在于對查詢的執(zhí)行,我們需要切實轉變思維方式并集中精力研究這樣一些問題,即什么人在做什么事,什么人在查詢什么東西以及我們如何對這些查詢進行優(yōu)化。”
Anders考慮將數(shù)據(jù)湖也遷到Google時,數(shù)據(jù)出口的成本也是他在思考的問題。他希望在云創(chuàng)建一個單一的平臺架構,但事實證明,數(shù)據(jù)出口的成本是一個問題。
Onders說:“從Teradata流出的數(shù)據(jù)很少,因為它更像是集市和分析最終要處理的對象,我們會將分析工具遷移到Google Cloud,因此數(shù)據(jù)出口并不多。但是當我們將數(shù)據(jù)湖遷入云端時,我們確實將數(shù)據(jù)發(fā)送到40多個下游系統(tǒng)。這種用法存在更大的問題,因為我們仍在對此展開對話。你不得不對某個模型展開認真思考,弄清楚它要花多少錢。”
版權聲明:本文為企業(yè)網D1Net編譯,轉載需注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。