小數(shù)據(jù)大未來(lái)——非結(jié)構(gòu)化數(shù)據(jù)管理探索

責(zé)任編輯:cres

2023-02-25 16:04:09

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

衛(wèi)信康醫(yī)藥股份有限公司CIO孟長(zhǎng)榮分享了非結(jié)構(gòu)化數(shù)據(jù)管理的經(jīng)驗(yàn)。

2月25日,由企業(yè)網(wǎng)D1Net、信眾智(CIO智力輸出及社交平臺(tái))和中國(guó)企業(yè)數(shù)字化聯(lián)盟醫(yī)藥大健康分會(huì)聯(lián)合主辦的2023全國(guó)醫(yī)藥大健康CIO大會(huì)在上海召開(kāi)。本次大會(huì)圍繞“數(shù)字化轉(zhuǎn)型新場(chǎng)景”這一主題,分享交流CIO在新冠疫情逐步緩解、中國(guó)醫(yī)藥衛(wèi)生體制改革邁向深水區(qū)的新形勢(shì)下,行業(yè)企業(yè)、機(jī)構(gòu)在創(chuàng)新藥物研發(fā)、流程效率提升、生產(chǎn)智能制造、全渠道數(shù)字營(yíng)銷(xiāo)等領(lǐng)域的前沿實(shí)踐與現(xiàn)階段的困惑,探討醫(yī)藥大健康行業(yè)的新技術(shù)應(yīng)用與未來(lái)發(fā)展趨勢(shì),以及如何更好地利用數(shù)字化技術(shù)推動(dòng)醫(yī)藥大健康行業(yè)的發(fā)展。
 
以下是現(xiàn)場(chǎng)速記。
 


衛(wèi)信康醫(yī)藥股份有限公司 CIO 孟長(zhǎng)榮
 
孟長(zhǎng)榮:各位同仁,各位大咖,大家下午好!首先很感謝范總提供這個(gè)交流的平臺(tái),這幾年疫情確實(shí)大家線下交流的機(jī)會(huì)都越來(lái)越少了,所以說(shuō)今年一開(kāi)年我們就能夠相聚在一起,感謝D1net。
 
我的分享大概分成四個(gè)部分:
 
首先是基本的介紹;
 
第二是對(duì)非結(jié)構(gòu)化數(shù)據(jù)管理的過(guò)往的經(jīng)歷給大家進(jìn)行交流;
 
前面的同事們都已經(jīng)提到,我們現(xiàn)在進(jìn)行這個(gè)數(shù)字化轉(zhuǎn)型過(guò)程中我們會(huì)用到非常多的系統(tǒng),都已經(jīng)很全面了。我們從研發(fā)信息化角度整個(gè)鏈路都打通了,但打通之后對(duì)關(guān)心數(shù)據(jù)很容易掌握,但是對(duì)于非結(jié)構(gòu)化數(shù)據(jù),特別是對(duì)于醫(yī)藥企業(yè)這個(gè)是管理,我自己分析下來(lái)都是其中一個(gè)難點(diǎn),也是容易被忽略的點(diǎn),當(dāng)然可能有的企業(yè)做得很好,已經(jīng)走在前面了。但是從數(shù)字化轉(zhuǎn)型角度來(lái)說(shuō),如果對(duì)我們自己基礎(chǔ)數(shù)據(jù)都還沒(méi)有達(dá)到一定的水平,我覺(jué)得這個(gè)是很難的。包括上午毛總也分享到,我們作為醫(yī)藥企業(yè)來(lái)說(shuō)合規(guī)非常重要,從合規(guī)的角度來(lái)說(shuō),我們的數(shù)據(jù)不光是系統(tǒng)的數(shù)據(jù),非系統(tǒng)的數(shù)據(jù),包括我們管理的數(shù)據(jù)如何界定、管理?特別是統(tǒng)一的管理,給大家交流一下,分享一些過(guò)往的經(jīng)歷。
 
首先做個(gè)簡(jiǎn)單的自我介紹,我是IT老兵,但是做藥的時(shí)間比較短,15年開(kāi)始進(jìn)入醫(yī)藥行業(yè),在海思科做了幾年,前兩年在海默尼,去年才來(lái)到衛(wèi)信康,這幾個(gè)企業(yè)都是不同的醫(yī)藥行業(yè),對(duì)醫(yī)藥研產(chǎn)銷(xiāo)整個(gè)環(huán)節(jié)都有所了解。
 
簡(jiǎn)單介紹一下衛(wèi)信康醫(yī)藥股份有限公司,衛(wèi)信康醫(yī)藥股份有限公司成立于06年,17年在主板上市,但是估計(jì)在座的很多同事都沒(méi)有聽(tīng)過(guò),是一個(gè)非常小的公司。我們現(xiàn)在的企業(yè)規(guī)模也只有500、600人,營(yíng)收就10幾個(gè)億的盤(pán)子,但是我們?cè)谄贩N上面,現(xiàn)在還是一家純仿制藥企業(yè),在品種上面,在研發(fā)上面我們應(yīng)該以前也是有自己的優(yōu)勢(shì)或者是一些方法。
 
所以我們細(xì)分領(lǐng)域都主要定位在腸道營(yíng)養(yǎng)和體內(nèi)營(yíng)養(yǎng)這一塊,整個(gè)品種有好幾個(gè)首防和單品,應(yīng)該說(shuō)在細(xì)分領(lǐng)域做得都還不錯(cuò)。當(dāng)然,因?yàn)檎w屬于小品種,可能大家很難接觸到。
 
我們總部在北京,現(xiàn)在有三個(gè)研究院??偛吭诤5?,然后在昌平和上地都有自己的研究中心,我們的工廠在綠盟。這個(gè)工廠說(shuō)出來(lái)大家應(yīng)該就會(huì)覺(jué)得有意思,這個(gè)工廠叫內(nèi)蒙古白醫(yī)制藥,前身是白求恩制藥廠,是14年收購(gòu)的。
 
醫(yī)藥行業(yè)是一個(gè)非常特殊的行業(yè),確實(shí)受政策的驅(qū)動(dòng)影響非常大。這個(gè)片子給大家看一下,因?yàn)檫@個(gè)看起來(lái)我們醫(yī)藥行業(yè)特別是對(duì)于數(shù)據(jù)這一塊政策的關(guān)聯(lián)度要求非常多,就這個(gè)片子來(lái)說(shuō)只收集到2020年,這兩年對(duì)于數(shù)據(jù)管理的要求在放緩,從藥監(jiān)的角度來(lái)說(shuō)在放緩,為什么放緩?因?yàn)榇蠹疫@兩年都經(jīng)歷疫情,對(duì)藥企要求越來(lái)越高,但醫(yī)藥行業(yè)整體的水平,橫向、縱向和其他行業(yè)進(jìn)行比較,我們就可以感覺(jué)到,我們跟其他行業(yè)的差距還是非常大的。但是對(duì)于數(shù)據(jù)合規(guī)的要求又非常高,所以在這方面國(guó)家發(fā)布了非常多的制度,對(duì)數(shù)據(jù)有強(qiáng)制性的要求。
 
2018年《藥品數(shù)據(jù)管理規(guī)范》應(yīng)該說(shuō)是個(gè)很重要的分水嶺,但是這個(gè)已經(jīng)發(fā)布了四年多,現(xiàn)在已經(jīng)快五年,還是在試運(yùn)行,還是在征求意見(jiàn)的階段,這個(gè)也是國(guó)家給大家的機(jī)會(huì),還有一些時(shí)間來(lái)補(bǔ)課。因?yàn)樵谶@個(gè)里面,藥品數(shù)據(jù)管理辦法里面對(duì)藥品全生命周期的數(shù)據(jù)管理都有很?chē)?yán)苛的要求,特別這兩年疫情的影響,特別對(duì)于疫苗、生物制劑大的板塊,大家可能都有很強(qiáng)的感受。特別是前兩年長(zhǎng)春生物的事件,對(duì)影響大家生命這一塊,國(guó)家現(xiàn)在確實(shí)是越來(lái)越嚴(yán)。包括異質(zhì)性評(píng)價(jià),我們現(xiàn)在國(guó)產(chǎn)藥安全性大家可以完全放心的去吃。
 
剛剛講到我們數(shù)字化轉(zhuǎn)型來(lái)說(shuō),我們已經(jīng)邁入了大數(shù)據(jù)的時(shí)代,但是每個(gè)企業(yè)的狀況不一樣,特別是醫(yī)藥行業(yè),我們整個(gè)醫(yī)藥行業(yè)技術(shù)水平確實(shí)有些弱。在座的都是同行,都是做IT或者跟IT相關(guān)的。我們自己的小數(shù)據(jù),我們是O了嗎?都已經(jīng)解決掉了嗎?
 
問(wèn)大家一個(gè)很簡(jiǎn)單的問(wèn)題,各位的企業(yè)總共有多少數(shù)據(jù),能夠一次性準(zhǔn)確答出來(lái)的有多少?沒(méi)關(guān)系,大家可以試一下,能答出來(lái)的舉下手,我看一下,好像都沒(méi)有同事可以一次性把它答出來(lái)。因?yàn)楝F(xiàn)在我們更多關(guān)注的重點(diǎn)可能都在系統(tǒng)上去了,可能都在流程、轉(zhuǎn)型上面去了。但是我們自己有多少數(shù)據(jù)?實(shí)際這個(gè)是很基礎(chǔ)的,反倒很容易被忽略。
 
一個(gè)是我們數(shù)據(jù)有多少,還有我們的數(shù)據(jù)有多少是有價(jià)值,有真正在使用的?這也是值得大家思考的問(wèn)題。
 
再一個(gè)醫(yī)藥行業(yè)是強(qiáng)監(jiān)管的行業(yè),我們這么多的數(shù)據(jù)到底哪些是已經(jīng)受了保護(hù)了?哪些是按合規(guī)在保護(hù)?哪些還在補(bǔ)課的過(guò)程中?這個(gè)也是需要我們作為CIO或者是相關(guān)的領(lǐng)導(dǎo)需要關(guān)注的問(wèn)題。
 
剛剛講到我們作為一個(gè)強(qiáng)監(jiān)管的行業(yè),對(duì)于數(shù)據(jù)的管理其實(shí)有非常多的要求。我們可能現(xiàn)在更多關(guān)注的都是在關(guān)系型數(shù)據(jù),從流程角度這個(gè)數(shù)據(jù)肯定是通的。但是換一個(gè)角度,我們很多非結(jié)構(gòu)化的數(shù)據(jù),就以研發(fā)為例,整個(gè)研發(fā)過(guò)程中產(chǎn)生的一些非結(jié)構(gòu)化的數(shù)據(jù),我們?nèi)绻炌?,貫通之后再?lái)進(jìn)行分析也會(huì)有很大的價(jià)值,但是怎么來(lái)管?
 
首先這個(gè)數(shù)據(jù)非常雜,可能來(lái)自于設(shè)備、來(lái)自于文檔甚至于來(lái)自于外部數(shù)據(jù)都有可能。數(shù)據(jù)來(lái)自四面八方,非常雜,很難去管它。還有產(chǎn)生的速度非???,無(wú)論是哪一方,特別是現(xiàn)在都在上智能化,如果上智能設(shè)備,智能設(shè)備產(chǎn)生的數(shù)據(jù)量非常大,這個(gè)增長(zhǎng)超乎想象,一臺(tái)設(shè)備的數(shù)據(jù)量可能會(huì)跟以前整個(gè)系統(tǒng)的數(shù)據(jù)量一樣大。
 
除了大以外,很多數(shù)據(jù)還要求永久保留,怎么保留?而且現(xiàn)在使用成本越來(lái)越高,在保留過(guò)程中能不能把它進(jìn)行一些成本的降低?我們現(xiàn)在這種規(guī)模的企業(yè)一年對(duì)于公有云的支出都達(dá)到百萬(wàn)級(jí),實(shí)際這個(gè)成本還是很高的,特別是進(jìn)入集采之后,利潤(rùn)非常低,而且這是長(zhǎng)期的過(guò)程,又是不可逆的趨勢(shì)。
 
給大家分享一下以前在數(shù)據(jù)傳遞和數(shù)據(jù)擴(kuò)展方面遇到的坑,如果大家已經(jīng)使用了文件管理服務(wù)器的話,空間占滿是很正常的,因?yàn)樗臄U(kuò)展很難預(yù)測(cè)。滿了之后怎么辦?滿了之后我們肯定就要停,這個(gè)是以前服務(wù)器告警的典型案例。停了之后,我們?yōu)榱朔?wù)的延續(xù)性,一定會(huì)發(fā)服務(wù)器停機(jī)的通知,當(dāng)然我們一般來(lái)說(shuō)都不會(huì)直接說(shuō)服務(wù)器有故障,大家都流行用升級(jí)。但是對(duì)于老板來(lái)說(shuō),服務(wù)器為什么老升級(jí)?隔兩天就升級(jí),特別是如果系統(tǒng)多了之后,這其實(shí)是很棘手的問(wèn)題。維護(hù)好了之后,在維護(hù)的時(shí)候其實(shí)其他同事可能順便就摸魚(yú)去了。
 
再一個(gè)重中之重,數(shù)據(jù)合規(guī)這一塊。從銷(xiāo)售角度來(lái)說(shuō)有一些外發(fā)的資料,特別是還沒(méi)有到公開(kāi)的數(shù)據(jù),我們可能對(duì)它的權(quán)限和效期都會(huì)有強(qiáng)制性的要求。但是對(duì)于一些比如宣傳的資料還有財(cái)務(wù)的資料,能夠快速的分享特別是宣傳的資料,文件可能很大,我們又想快速的分享,這實(shí)際是天然相悖的。再一個(gè)對(duì)于研發(fā)的資料,特別是對(duì)于研發(fā)設(shè)計(jì)包括化合物的設(shè)計(jì),我們?nèi)绻邪姹镜母拍睿梢钥焖俣ㄎ弧?/div>
 
還有一個(gè)研發(fā)完成之后整個(gè)資料的集中管理,比如像我們研究院是分開(kāi)的,數(shù)據(jù)的集中如果一開(kāi)始沒(méi)想好,后期難度也非常大。因?yàn)槲覀冊(cè)O(shè)備已經(jīng)把它固定到了那個(gè)地方,通過(guò)驗(yàn)證就開(kāi)始上線了,上線之后你再挪個(gè)位置,改個(gè)IP可能都需要重新做個(gè)驗(yàn)證,一涉及驗(yàn)證說(shuō)大一點(diǎn)可能就會(huì)影響停產(chǎn),這是多數(shù)人都不能接受的,老板更不能接受。
 
最早這個(gè)是20年前的時(shí)候開(kāi)始用域共享,感覺(jué)管起來(lái)不太方便,然后用SVN,再進(jìn)入到SAMBR共享,它在文檔共享方面還是很強(qiáng)大的。然后到NAS,它可以解決地域性的問(wèn)題。再到前幾年,前幾年非常火的網(wǎng)盤(pán),再到近兩年的包括飛書(shū)也有綠色的工具就是V盤(pán),在線的SaaS文檔,但這些工具都各有利弊,如果作為統(tǒng)一非結(jié)構(gòu)化管理,特別對(duì)于藥企管理都存在相對(duì)的弊端,如果不是藥企無(wú)所謂,一旦是藥企,一旦和合規(guī)拉上關(guān)系,這個(gè)就都有風(fēng)險(xiǎn)。
 
我們站在從整個(gè)非結(jié)構(gòu)化數(shù)據(jù)管理角度來(lái)看,我們把它分成六塊來(lái)規(guī)劃。首先是存儲(chǔ),這個(gè)是大家最容易理解的。然后是聚合,聚合是指我本來(lái)數(shù)據(jù)量已經(jīng)很大的情況下,我肯定會(huì)面向多元的存儲(chǔ)協(xié)議,包括多元的硬件。再一個(gè)是協(xié)作,協(xié)作也很好理解,現(xiàn)在很多工具包括剛才講的飛書(shū)也好,包括釘釘也好、企微都是相應(yīng)的協(xié)作工具。
 
再一個(gè)是統(tǒng)一的數(shù)據(jù)體系,作為藥企上午毛總分享到的,我們勢(shì)必要進(jìn)行分級(jí)管理,分級(jí)管理可能對(duì)于關(guān)系型數(shù)據(jù)很好做,但是對(duì)非關(guān)系型數(shù)據(jù)、對(duì)于結(jié)構(gòu)化數(shù)據(jù),我們也需要把它先做一個(gè)基礎(chǔ)的數(shù)據(jù)體系。然后是統(tǒng)一的管理,特別是作為集團(tuán)化企業(yè),研發(fā)、生產(chǎn)、銷(xiāo)售各個(gè)模塊甚至分支機(jī)構(gòu),如果不統(tǒng)一勢(shì)必會(huì)產(chǎn)生很多重復(fù)的甚至無(wú)效的。再一個(gè)是核心的安全體系。
 
剛剛講到整個(gè)規(guī)劃,規(guī)劃之后從落地角度來(lái)說(shuō),統(tǒng)一管理主要是管什么?
 
第一個(gè)是體系文件,這個(gè)應(yīng)該說(shuō)是基礎(chǔ)。然后是檢驗(yàn)文件,包括研發(fā)的數(shù)據(jù)還有技術(shù)文件,還有生產(chǎn)數(shù)據(jù)。生產(chǎn)數(shù)據(jù)比較泛,包括設(shè)備數(shù)據(jù),既然要建立平臺(tái),應(yīng)該就是剛剛講的一統(tǒng)六國(guó),全部的數(shù)據(jù)只要是非結(jié)構(gòu)化的數(shù)據(jù)都能夠入庫(kù)拿來(lái)管,這個(gè)地方管了之后有什么好處?
 
第一個(gè)是交叉引用,進(jìn)入同一個(gè)池子,交叉引用非常高。還有快速的檢索,現(xiàn)在各個(gè)企業(yè)都缺一個(gè)知識(shí)庫(kù),如果有統(tǒng)一的話,這個(gè)知識(shí)庫(kù)很完整。再一個(gè)是日志,從審計(jì)角度來(lái)說(shuō),日志是一個(gè)基礎(chǔ)。這個(gè)審計(jì)日志如果完整的話,合規(guī)自然就受控了,自然可以滿足合規(guī)的要求。
 
這個(gè)圖可能有點(diǎn)小,站在醫(yī)藥企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理的四個(gè)階段來(lái)劃分。
 
第一步是基礎(chǔ)文檔的概念來(lái)管。把這塊管好之后,把研發(fā)文檔抽出來(lái),研發(fā)文檔再獨(dú)立一個(gè)階段。研發(fā)O了之后,GRP研發(fā)要求跟生產(chǎn)還是有些差異,我們把大質(zhì)量,整個(gè)質(zhì)量體系的角度從藥品生產(chǎn)角度,全生命周期質(zhì)量來(lái)管,如果這塊都O了之后,我們就可以真正形成知識(shí)管理平臺(tái)。知識(shí)管理平臺(tái)之后今年非常火的ChatGPT,大家都在玩,我們知識(shí)管理平臺(tái)形成之后,天然的馬上郭總會(huì)分享的ChatGPT的實(shí)踐,我們有了這個(gè)知識(shí)庫(kù),有了知識(shí)管理的平臺(tái)后對(duì)于ChatGPT的建設(shè)應(yīng)該會(huì)有很大的幫助。從我們具體系統(tǒng)部署來(lái)說(shuō),數(shù)據(jù)應(yīng)用這些就不贅述了,這個(gè)都差不多,跟其他系統(tǒng)沒(méi)什么差異,都是一樣的。首先是要把整個(gè)統(tǒng)一掉,后面就都好辦了。
 
從具體落地實(shí)施角度來(lái)說(shuō),首先肯定是從集團(tuán)文檔就是基礎(chǔ)文件的角度。這個(gè)基礎(chǔ)文件要分成兩塊:個(gè)人和設(shè)備的文件,可能管理的需求會(huì)低一些;另外一個(gè)是從團(tuán)隊(duì)和項(xiàng)目文檔,特別是作為項(xiàng)目文檔,項(xiàng)目文檔的歸集,它這個(gè)地方復(fù)用度非常高,會(huì)有強(qiáng)制的要求。
 
集團(tuán)文檔平臺(tái)。這個(gè)是以前項(xiàng)目的數(shù)據(jù),可以看到兩年半時(shí)間數(shù)據(jù)差異的對(duì)比,從入駐半年的樣子大概是在24個(gè)T的樣子,然后到三年的時(shí)間接近200個(gè)T,當(dāng)然這個(gè)數(shù)據(jù)量說(shuō)起來(lái)不大,但是它的文件數(shù)也不少,最早大概在50多萬(wàn),然后到三年的時(shí)間大概是在6100多萬(wàn)。這個(gè)是文件數(shù),這個(gè)不是條目數(shù),如果以這個(gè)來(lái)做衍生,它可以很輕松的就過(guò)億了。
 
第一步從集團(tuán)文檔角度來(lái)說(shuō),就不能以單純的集團(tuán)文檔管理角度,應(yīng)該是整體思維,從藥品全生命周期的角度,統(tǒng)一文檔在建的時(shí)候就要考慮日志和審計(jì)的要求,我肯定不是所有的都需要做審計(jì),但是我會(huì)滿足審計(jì)的要求。敏感的數(shù)據(jù)、合規(guī)的數(shù)據(jù)一定會(huì)納入監(jiān)控的范圍,還有一個(gè)剛剛講的全文檢索,這個(gè)也是非常使用的,這一塊可能就會(huì)涉及到后臺(tái)hadoop,綠色大數(shù)據(jù)分析平臺(tái)。這一塊它只是其中一個(gè)點(diǎn)。因?yàn)橹R(shí)的挖掘和積累本來(lái)就是一個(gè)過(guò)程,從大的角度來(lái)說(shuō),如果這個(gè)框架是以這個(gè)來(lái)定的,后面數(shù)據(jù)擴(kuò)容,剛才講到服務(wù)器宕機(jī)或者升級(jí)這一塊可以完全避免掉。所有的系統(tǒng)今后對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的管理,實(shí)際絕對(duì)是O的。
 
第二步從研發(fā)平臺(tái),第三步是統(tǒng)一的全面質(zhì)量管理,大質(zhì)量的角度。也是從整個(gè)藥物發(fā)現(xiàn)到臨床到生產(chǎn)到流通到藥物安全整個(gè)全過(guò)程。
 
最后是從醫(yī)藥企業(yè)的角度來(lái)說(shuō),大的GXP一體化的管理。這個(gè)地方我們可以真正形成至少?gòu)乃幤蟮馁|(zhì)量一體化,數(shù)字一體化還有智能制造一體化平臺(tái)的基礎(chǔ)。因?yàn)槲野阉械臄?shù)據(jù),包括結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)都采了,有了這些數(shù)據(jù)之后我們?cè)賮?lái)做相應(yīng)的驗(yàn)證也好,還是做我們的管理也好,就比較容易了。
 
這是比較老的圖,大家都非常熟悉。從計(jì)算機(jī)發(fā)展幾個(gè)大的階段來(lái)看,我們現(xiàn)在正在經(jīng)歷的是第五個(gè)階段,就是人工智能認(rèn)知的階段。包括我們數(shù)字化轉(zhuǎn)型,實(shí)際也是這個(gè)方向,但它這一塊有個(gè)很基礎(chǔ)的基礎(chǔ)的基礎(chǔ)就是文件的管理,就是非結(jié)構(gòu)化數(shù)據(jù)的管理。
 
剛才講到結(jié)構(gòu)化的數(shù)據(jù),在我系統(tǒng)之間的關(guān)聯(lián)很容易,但是非結(jié)構(gòu)化這一塊實(shí)際非常難,這個(gè)也是為什么ChatGPT那么火的原因。但是我們國(guó)內(nèi)的企業(yè)包括走在前面的百度、阿里包括科大訊飛,他們跟國(guó)外特別是OpenAI還有兩個(gè)量級(jí)的差異,這也是很重要的點(diǎn)。
 
不是說(shuō)這一塊實(shí)現(xiàn)就可以直接過(guò)度到,也不是,剛剛講了AI的過(guò)程也非常的遠(yuǎn)。
 
我的交流就到這里,謝謝大家!

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)