我們收集了2023年沖擊公司的八個重大技術(shù)失敗的例子。當(dāng)然,每個問題都是一個可以從中吸取教訓(xùn)的時刻,我們希望這些災(zāi)難可以作為警示故事,讓你在2024年解決自己公司中潛在的IT問題。
航空領(lǐng)域的科技事故
航空業(yè)擁有造成真正可怕的IT恐怖故事所需的所有要素:它由大公司和大型政府官僚機(jī)構(gòu)主導(dǎo),它需要數(shù)千架飛機(jī)和數(shù)百萬名乘客近乎完美的協(xié)調(diào),任何延誤都可能導(dǎo)致連鎖故障,導(dǎo)致延誤甚至更糟。由于現(xiàn)有的公司已經(jīng)存在了很長時間,許多公司運(yùn)行的IT系統(tǒng)包含一些幾年或幾十年的元素。老實(shí)說,這是一個奇跡,這個系統(tǒng)居然還能工作。美國聯(lián)合航空公司和夏威夷航空公司在2023年都出現(xiàn)了由于軟件升級不可靠而導(dǎo)致的服務(wù)中斷,西南航空公司在前一年年末時將圣誕節(jié)旅行崩潰歸咎于過時的系統(tǒng)。
然而,2023年最嚴(yán)重的IT航空災(zāi)難可能發(fā)生在政府方面。美國聯(lián)邦航空局維護(hù)著一個名為通知空中任務(wù)(NOTAM)的數(shù)據(jù)庫,該數(shù)據(jù)庫提供了一個自動化的集中信息源,提供有關(guān)關(guān)閉的跑道或不同機(jī)場的設(shè)備故障,或不同航線上的危險等信息。1月11日,NOTAM墜毀,導(dǎo)致全國范圍內(nèi)的“地面???rdquo;,停止了所有起飛,但空中的飛機(jī)被允許繼續(xù)飛往目的地。
停機(jī)被追蹤到一個損壞的數(shù)據(jù)庫文件,一個承包商正在努力糾正實(shí)時數(shù)據(jù)庫和備份數(shù)據(jù)庫之間的同步問題,但最終兩者都被破壞了。這位工程師在“一個讓國家損失數(shù)百萬美元的錯誤”中“用一個文件替換了另一個文件”,這一事件為確保關(guān)鍵數(shù)據(jù)得到冗余備份提供了一些明顯的教訓(xùn),特別是在你要擺弄備份系統(tǒng)的情況下。
紐約證券交易所脆弱的備份過程
美國聯(lián)邦航空局并不是唯一一個發(fā)現(xiàn)其備份過程本身就是一場災(zāi)難的組織,該過程本應(yīng)有助于避免災(zāi)難。紐約證券交易所在1月份也面臨著類似的危機(jī),紐約證交所明智地將其備份服務(wù)器設(shè)在距離華爾街?jǐn)?shù)百英里的芝加哥,作為一個數(shù)據(jù)堡壘,以防危機(jī)襲擊曼哈頓下城。在某種程度上不那么明智的是,它的日常備份依賴于一個流程,員工必須在適當(dāng)?shù)臅r間物理地打開和關(guān)閉備份系統(tǒng)。
事實(shí)上,每天在完全相同的時間啟動和停止數(shù)字進(jìn)程是計(jì)算機(jī)相當(dāng)擅長的事情,人們往往會時不時地搞砸,所以總有一天會出現(xiàn)危機(jī),這可能是不可避免的。1月24日,當(dāng)芝加哥的一名員工未能在適當(dāng)?shù)臅r間關(guān)閉備份服務(wù)器時,它就出現(xiàn)了。結(jié)果,當(dāng)紐約證券交易所上午9:30開始交易時,紐約證交所的電腦們以為他們是在延續(xù)前一天的交易時段,而忽略了當(dāng)天的公開拍賣,因?yàn)楣_拍賣本應(yīng)設(shè)定許多股票的初始價格。其結(jié)果是一系列劇烈的市場波動和大量錯誤價格的交易,這些交易不得不以高昂的代價被取消。教訓(xùn)是:永遠(yuǎn)不要派人去做計(jì)算機(jī)的工作,特別是如果計(jì)算機(jī)的工作很簡單的話。
在太空中,沒有人可以取消你的軟件許可證
NASA是一個科學(xué)奇跡,它從事各種酷而鼓舞人心的太空活動,它也是一個龐大的政府官僚機(jī)構(gòu),有數(shù)千名員工和計(jì)算機(jī)系統(tǒng)在其保護(hù)傘下。不幸的是,與空間碎片相比,該機(jī)構(gòu)更難跟蹤所有這些計(jì)算機(jī)。OIG今年的一份報告關(guān)注的是NASA為甲骨文產(chǎn)品購買的大量許可證,以支持十多年前結(jié)束的航天飛機(jī)計(jì)劃,結(jié)果不僅是該機(jī)構(gòu)被甲骨文技術(shù)所束縛,而且糟糕的文檔處理意味著NASA不確定他們實(shí)際使用了多少甲骨文系統(tǒng)。因此,該機(jī)構(gòu)在過去三年里在其可能不使用的軟件上花費(fèi)了1500萬美元,但不想冒著甲骨文軟件審計(jì)的風(fēng)險,因?yàn)榧坠俏目赡軙幰愿叱杀镜牧P款。
此類問題的解決方案是實(shí)現(xiàn)一個軟件資產(chǎn)管理程序,該程序可以幫助你準(zhǔn)確地了解你正在使用什么軟件,以及你需要什么許可證和不需要什么許可證。好消息是,美國聯(lián)邦政府已經(jīng)要求像NASA這樣的機(jī)構(gòu)實(shí)施這樣的計(jì)劃,壞消息是,根據(jù)OIG的報告,“實(shí)施企業(yè)范圍的軟件資產(chǎn)管理計(jì)劃的努力受到了預(yù)算和人員問題以及該機(jī)構(gòu)軟件許可協(xié)議的復(fù)雜性和數(shù)量的阻礙。”
軟件許可形勢陰云密布
如果說NASA是一個過度謹(jǐn)慎的政府機(jī)構(gòu)為軟件付費(fèi)的例子,那么它可能并不是為了以防萬一,云服務(wù)提供商N(yùn)utanix在今年5月發(fā)生了一起丑聞,當(dāng)時有消息稱,該公司在軟件許可方面采取了相反的方式。具體地說,Nutanix以“不合規(guī)的方式”使用第三方軟件,這是一種委婉的說法,意思是“不付錢,即使他們應(yīng)該付錢。”
該公司使用來自兩家不同供應(yīng)商的軟件進(jìn)行“互操作性測試、驗(yàn)證和客戶概念驗(yàn)證、培訓(xùn)和客戶支持”。不幸的是,他們使用的軟件版本被標(biāo)記為僅用于評估目的,這是一個持續(xù)多年的“評估”過程。這個問題是在一次內(nèi)部審查中發(fā)現(xiàn)的,由于供應(yīng)商需要為不符合規(guī)定的使用支付費(fèi)用,Nutanix無法按時向SEC提交季度收益報告,因?yàn)樗谠噲D處理自己的欠款。這一失誤導(dǎo)致這位CIO離開了公司,教訓(xùn)可能是,唯一比為你不使用的軟件付費(fèi)更糟糕的事情是,不為你使用的軟件付費(fèi)。
把燈關(guān)掉,派對結(jié)束了
從技術(shù)上講,下一個故事是一個可以追溯到2021年的IT故障,但我們將在今年的綜述中包括它,因?yàn)樗窃?023年最終得到解決的。近10年來,馬薩諸塞州米納喬格地區(qū)高中一直快樂地運(yùn)行著由第五光安裝的“綠色照明”系統(tǒng),該系統(tǒng)可以根據(jù)需要自動調(diào)節(jié)校內(nèi)外的燈光。但在2021年8月,老師和學(xué)生注意到燈一直開到最大亮度。事實(shí)證明,該系統(tǒng)受到了惡意軟件的攻擊,并進(jìn)入了后備模式,燈從未熄滅。
隨之而來的是一系列發(fā)人深省的發(fā)現(xiàn),為任何想要完全依靠軟件來控制真實(shí)物理世界中的東西的人提供了教訓(xùn)。高科技的照明系統(tǒng)沒有可以簡單打開和關(guān)閉的手動開關(guān),軟件集成到其他學(xué)校系統(tǒng)中,不能輕易更換。最初的供應(yīng)商已經(jīng)不復(fù)存在,知識產(chǎn)權(quán)被買賣了好幾次。新的所有者,一家名為Reflex Lighting的公司,花了幾周時間才找到了解學(xué)校系統(tǒng)工作原理的人。最終制定了維修計(jì)劃,但到那時,新冠疫情后封鎖的供應(yīng)鏈中斷意味著新設(shè)備要幾個月才能從中國運(yùn)往馬薩諸塞州。
最后,經(jīng)過近18個月的持續(xù)亮燈(偶爾根據(jù)需要手動擰進(jìn)燈泡),該系統(tǒng)今年進(jìn)行了更新-是的,它配備了物理開關(guān),可能一開始就應(yīng)該有。
當(dāng)崩盤意味著真正的崩盤
Minechaug地區(qū)高中的故事就是一個很好的例子,說明了為什么機(jī)械的現(xiàn)實(shí)世界的設(shè)備并不總是與軟件很好地融合在一起,但機(jī)械和電氣工程也不是沒有問題——有時軟件可以提供幫助。以澳大利亞使用的軍用直升機(jī)MRH-90大班為例,2010年,一名飛行員在飛行中途嘗試了所謂的“熱啟動”——關(guān)閉電源,然后重新啟動引擎,導(dǎo)致發(fā)動機(jī)發(fā)生“災(zāi)難性”故障,這個機(jī)械問題在軟件上得到了解決,澳大利亞國防部推出了一個軟件補(bǔ)丁,旨在防止直升機(jī)熱啟動。
不幸的是,軟件補(bǔ)丁的第一條規(guī)則是,只有當(dāng)你真正推出補(bǔ)丁時,它們才能起作用。盡管這個補(bǔ)丁已經(jīng)推出了十年的大部分時間,但并不是所有澳大利亞的大班都安裝了這個補(bǔ)丁,導(dǎo)致今年4月在一次訓(xùn)練任務(wù)中,直升機(jī)因啟動過熱而墜毀。
下一步發(fā)生的級聯(lián)電話故障
去年11月,澳大利亞發(fā)生了另一起備受矚目的IT故障,該國第二大電信運(yùn)營商Optus停機(jī)12小時,導(dǎo)致一半的澳大利亞人無法連接電話或互聯(lián)網(wǎng)。故障最終可能歸因于擁有Optus的新加坡公司Singtel發(fā)送的路由更改。這些信息顯然是如此龐大的數(shù)據(jù)浪潮,以至于它淹沒了Optus的路由器,然后不得不物理重啟——考慮到澳大利亞的規(guī)模,這花了相當(dāng)長的時間。
作為一家具有全國意義的服務(wù)提供商的問題是,當(dāng)你遇到引人注目的IT故障時,你的高管會被拖到國家議會面前解釋哪里出了問題,如果你告訴立法者這個問題是如此普遍和意外,以至于你沒有處理它的計(jì)劃,而且你的首席執(zhí)行官攜帶著競爭對手運(yùn)營商的SIM卡,以確保她在她負(fù)責(zé)的運(yùn)營商倒閉的情況下仍能打電話,這肯定無濟(jì)于事。或許并不令人意外的是,Optus首席執(zhí)行官凱利·拜爾·羅斯馬林很快就離開了公司。(我們認(rèn)為,Optus大規(guī)模停電的教訓(xùn)是,為所有不同類型的災(zāi)難制定災(zāi)難計(jì)劃,并正確配置路由器。)
AI,真正的失敗
由于2023年是GenAI成為主流的一年,我們將用幾個備受矚目的AI災(zāi)難來結(jié)束這份清單。在其中一個比較引人注目的案件中,Levidow,Levidow&Oberman律師事務(wù)所的律師求助于ChatGPT,幫助他們起草與他們的一名客戶就人身傷害起訴航空公司有關(guān)的法律摘要。對他們和他們的客戶來說,不幸的是,ChatGPT做了一件越來越廣為人知的事情:制作了一份極其可信的文件,其中包括一些事實(shí)錯誤,包括引用了多個不存在的法庭案件(AI術(shù)語中的“幻覺”)。律師史蒂文·A·施瓦茨向法官承認(rèn),這是他第一次將ChatGPT用于專業(yè)目的,他“沒有意識到它的內(nèi)容可能是虛假的。”在他的辯護(hù)中,他曾問ChatGPT它的引文是否是假的,這個聊天機(jī)器人堅(jiān)持說,可以在LexisNexis和Westlaw等聲譽(yù)良好的法律數(shù)據(jù)庫中找到這些引文。(事實(shí)證明,這不是真的。)
AI的失敗也打擊了科技新聞界,CNET被迫撤回了35篇以上的報道,這些報道是在一種名為負(fù)責(zé)任的AI機(jī)器合作伙伴(RAMP)的工具的幫助下撰寫的。不太負(fù)責(zé)的結(jié)果不僅讓公司顏面掃地,還引發(fā)了員工的強(qiáng)烈反對。教訓(xùn)是,AI就像任何IT工具一樣,如果你不了解它的工作原理,或者在你的特定用例中它仍然是半生不熟的,就不應(yīng)該使用它。
企業(yè)網(wǎng)D1net(r5u5c.cn):
國內(nèi)主流的to B IT門戶,同時在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運(yùn)營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。