科研活動(dòng)需要數(shù)據(jù)的支撐。研究過(guò)程中,為獲取數(shù)據(jù)往往需要消耗大量的人力、物力,同時(shí)也造成了數(shù)據(jù)的浪費(fèi)。在這種情況下,科研數(shù)據(jù)的共享開(kāi)始受到廣泛的關(guān)注。然而,在研究人員欣喜于科研數(shù)據(jù)共享的成果時(shí),數(shù)據(jù)安全的問(wèn)題日益暴露出來(lái)。隨著大數(shù)據(jù)的到來(lái),數(shù)據(jù)安全的問(wèn)題被愈加放大。如何既確保安全,又能高效地共享數(shù)據(jù)?對(duì)科研數(shù)據(jù)中的敏感信息如何進(jìn)行處理?如何保護(hù)科研活動(dòng)中的隱私?這些都是亟待被思考的問(wèn)題。
1 相關(guān)研究
科研數(shù)據(jù),也稱為科學(xué)數(shù)據(jù),是科研活動(dòng)中重要的產(chǎn)出之一[1]。在開(kāi)放共享的大潮中,科研數(shù)據(jù)在科學(xué)合作、傳播和交流中具有重大戰(zhàn)略意義??蒲袛?shù)據(jù)安全既包括科研數(shù)據(jù)本身的安全,也包括數(shù)據(jù)相關(guān)利益主體的安全,特別是涉及主體隱私權(quán)的數(shù)據(jù),在共享中受到更多的關(guān)注[2]。
利用CNKI和Web of Science文獻(xiàn)數(shù)據(jù)庫(kù)分別對(duì)國(guó)內(nèi)外科研數(shù)據(jù)安全研究相關(guān)的文章進(jìn)行檢索發(fā)現(xiàn),盡管國(guó)內(nèi)外都存在大量數(shù)據(jù)安全相關(guān)的研究,但國(guó)內(nèi)對(duì)于直接研究科研數(shù)據(jù)安全的文獻(xiàn)還相對(duì)較少。在CNKI中以“科研數(shù)據(jù)安全”為檢索詞進(jìn)行主題檢索,僅獲得4篇相關(guān)文獻(xiàn),且主要研究數(shù)據(jù)平臺(tái)或系統(tǒng)的安全保障問(wèn)題。而對(duì)于科研數(shù)據(jù)安全問(wèn)題的探討往往嵌入在科研數(shù)據(jù)共享、開(kāi)放獲取、數(shù)據(jù)管理等政策或技術(shù)研究中。
在科研數(shù)據(jù)管理或科研數(shù)據(jù)開(kāi)放共享研究中,國(guó)內(nèi)的相關(guān)研究基本處于介紹國(guó)外政策實(shí)例階段,科研數(shù)據(jù)安全問(wèn)題只是作為其組成部分,通過(guò)經(jīng)驗(yàn)案例進(jìn)行介紹,缺乏與我國(guó)本土實(shí)際情況的聯(lián)系。張瑤等[3]在調(diào)研與分析國(guó)外科研資助機(jī)構(gòu)數(shù)據(jù)政策后發(fā)現(xiàn),科研資助機(jī)構(gòu)的數(shù)據(jù)政策中往往涉及數(shù)據(jù)的保密及安全規(guī)定。資助機(jī)構(gòu)要求研究者遵循相關(guān)數(shù)據(jù)保護(hù)法規(guī),特別要對(duì)機(jī)密和隱私數(shù)據(jù)設(shè)定數(shù)據(jù)共享限制,對(duì)人類受試者數(shù)據(jù)應(yīng)采取匿名化、重新鑒定、隱藏標(biāo)識(shí)符等方式處理。丁培[4]在對(duì)國(guó)外大學(xué)科研數(shù)據(jù)管理政策研究時(shí)發(fā)現(xiàn),美國(guó)、英國(guó)以及澳大利亞的許多大學(xué)在數(shù)據(jù)管理政策中都涉及數(shù)據(jù)安全、隱私和保護(hù)的內(nèi)容,具體包括:數(shù)據(jù)安全保護(hù)及保密的原則性說(shuō)明;關(guān)于數(shù)據(jù)限制性訪問(wèn)的說(shuō)明;隱私以及保密協(xié)議的說(shuō)明。張閃閃等[5]在對(duì)國(guó)外信息服務(wù)機(jī)構(gòu)的數(shù)據(jù)管理政策進(jìn)行調(diào)研時(shí)也發(fā)現(xiàn),斯坦福大學(xué)圖書館在科研數(shù)據(jù)的處理上,注意隱私保護(hù)。當(dāng)涉及人類受試者數(shù)據(jù)時(shí),要接受監(jiān)督并使用專門的數(shù)據(jù)搜集工具。
相較于國(guó)內(nèi),國(guó)外對(duì)于科研數(shù)據(jù)安全政策及技術(shù)的研究則更為全面,特別是在科研數(shù)據(jù)共享中涉及的隱私及敏感數(shù)據(jù)等問(wèn)題受到廣泛關(guān)注。在政策上,美、英等國(guó)的科研資助機(jī)構(gòu)(美國(guó)國(guó)家科學(xué)基金會(huì)(NSF),英國(guó)研究理事會(huì)(RCUK)等)和高校(哈佛大學(xué)、牛津大學(xué)等),紛紛制定了各自的科學(xué)數(shù)據(jù)開(kāi)放政策指南或規(guī)定,其中包括數(shù)據(jù)的分類規(guī)則、數(shù)據(jù)共享的限制、數(shù)據(jù)處理等與科學(xué)數(shù)據(jù)安全相關(guān)的重要內(nèi)容。在技術(shù)上,針對(duì)不同領(lǐng)域數(shù)據(jù)的特點(diǎn),為數(shù)據(jù)存儲(chǔ)、訪問(wèn)等過(guò)程的安全問(wèn)題提供保障。Sydes等[6]基于臨床醫(yī)學(xué)試驗(yàn)數(shù)據(jù)共享中的信息披露風(fēng)險(xiǎn),開(kāi)發(fā)了一套新的訪問(wèn)控制的方法,從而保障數(shù)據(jù)共享中的安全。Dong等[7]對(duì)大數(shù)據(jù)共享平臺(tái)中涉及用戶個(gè)人信息的敏感數(shù)據(jù),提出了新的基于異構(gòu)密文轉(zhuǎn)換代理算法和基于虛擬機(jī)監(jiān)視器的用戶進(jìn)程保護(hù)方法,為安全共享這些敏感數(shù)據(jù)提供支持和保障。在涉及隱私及敏感數(shù)據(jù)的討論中,共享數(shù)據(jù)的識(shí)別或評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題一直是相關(guān)學(xué)者關(guān)注的熱點(diǎn)之一,但始終沒(méi)有一套相對(duì)通用的評(píng)估方法。如Sariyar等[8]意識(shí)到幫助數(shù)據(jù)提供者來(lái)識(shí)別科學(xué)數(shù)據(jù)共享中可能存在的法律、倫理或社會(huì)敏感問(wèn)題是一個(gè)經(jīng)常被忽略但卻十分重要的環(huán)節(jié)。同時(shí)描述了一套復(fù)雜的監(jiān)管環(huán)境,并提供相應(yīng)的在線工具幫助數(shù)據(jù)供應(yīng)商識(shí)別敏感數(shù)據(jù)及數(shù)據(jù)中涉及的法律倫理問(wèn)題。Malin等[9]改進(jìn)了安全港的HIPAA標(biāo)準(zhǔn)隱私規(guī)則和傳統(tǒng)的基于統(tǒng)計(jì)標(biāo)準(zhǔn)的隱私規(guī)則模型中的不足,提出了一個(gè)更直觀的De-identification方法對(duì)醫(yī)療研究中的病例數(shù)據(jù)進(jìn)行評(píng)估,通過(guò)評(píng)估結(jié)果確認(rèn)數(shù)據(jù)是否達(dá)到共享標(biāo)準(zhǔn)。
此外,隨著近年來(lái)科研數(shù)據(jù)共享中的數(shù)據(jù)安全問(wèn)題受到越來(lái)越廣泛的重視,對(duì)于數(shù)據(jù)“邊開(kāi)放邊保護(hù)”的呼聲越來(lái)越高,國(guó)外對(duì)于數(shù)據(jù)共享與數(shù)據(jù)安全之間關(guān)系的博弈也出現(xiàn)了新的現(xiàn)象。Dove[10]認(rèn)為,對(duì)數(shù)據(jù)采用復(fù)雜的再編碼方式可能僅僅只是給機(jī)構(gòu)審查委員會(huì)和研究倫理委員會(huì)創(chuàng)造的一種虛假的安全感,在一定程度上會(huì)阻礙科研數(shù)據(jù)的再研究和創(chuàng)造。Stoddart等[11]發(fā)現(xiàn)歐盟的數(shù)據(jù)保護(hù)是以特定地區(qū)法律或政策作為標(biāo)準(zhǔn),對(duì)數(shù)據(jù)的透明度、質(zhì)量、比例、安全、訪問(wèn)和修編等限制方面進(jìn)行評(píng)估。理論上,每個(gè)國(guó)家或地區(qū)的數(shù)據(jù)保護(hù)規(guī)定與歐盟的數(shù)據(jù)保護(hù)原則應(yīng)該是一致或相似的。然而,近年來(lái)在數(shù)據(jù)保護(hù)決策方面的不一致愈發(fā)明顯,僅有5個(gè)國(guó)家或地區(qū)與歐盟相一致。這樣的不一致產(chǎn)生的直接負(fù)面作用就是阻礙了歐盟成員之間的數(shù)據(jù)共享。因此,在科研數(shù)據(jù)共享中,意識(shí)到數(shù)據(jù)安全問(wèn)題,從政策和技術(shù)上為數(shù)據(jù)共享中的安全提供保障支持固然重要,但如何更好地實(shí)現(xiàn)“管為用,用中管”,在科研數(shù)據(jù)共享和安全中維持良好的平衡也是未來(lái)研究重要的方向。
近年來(lái),我國(guó)各部委、省市及高校等科研單位紛紛建立起科學(xué)數(shù)據(jù)共享平臺(tái)。數(shù)據(jù)共享中的安全管理政策制定存在較大的優(yōu)化空間。本文擬從科研數(shù)據(jù)共享與安全的基本原則、啟動(dòng)時(shí)機(jī)、數(shù)據(jù)識(shí)別、評(píng)估監(jiān)管和結(jié)果處理5個(gè)方面(如圖1所示),對(duì)比國(guó)內(nèi)外各類科研機(jī)構(gòu)或科研數(shù)據(jù)共享平臺(tái)的數(shù)據(jù)安全政策,并分析其中的共性與不足,以期為我國(guó)科研共享活動(dòng)中的數(shù)據(jù)安全政策的規(guī)劃和建設(shè)提供相應(yīng)的借鑒。
2 對(duì)國(guó)內(nèi)外科研數(shù)據(jù)管理政策的解析
從國(guó)家基金組織、科研資助機(jī)構(gòu)和高校等領(lǐng)域入手對(duì)國(guó)內(nèi)外科研數(shù)據(jù)共享與安全的管理政策進(jìn)行分析,可以發(fā)現(xiàn)國(guó)外呈現(xiàn)“鼓勵(lì)共享,安全協(xié)同”的狀態(tài),國(guó)內(nèi)則呈現(xiàn)“鼓勵(lì)共享,安全不足”的狀態(tài)。
2.1 “鼓勵(lì)共享,安全協(xié)同”的國(guó)外科研數(shù)據(jù)管理政策
1)國(guó)家基金組織、科研資助機(jī)構(gòu)。根據(jù)DCC[12]網(wǎng)站上發(fā)布的英國(guó)研究資助者數(shù)據(jù)管理和共享計(jì)劃文件匯總,選取在數(shù)據(jù)管理和共享政策方面較為完善的6所科研資助機(jī)構(gòu),分別是:英國(guó)研究理事會(huì)(RCUK)[13]、英國(guó)癌癥研究中心(CRUK)[14]、英國(guó)生物技術(shù)與生物科學(xué)研究理事會(huì)(BBSRC)[15]、英國(guó)經(jīng)濟(jì)和社會(huì)研究理事會(huì)(ESRC)[16]、英國(guó)醫(yī)學(xué)研究理事會(huì)(MRC)[17]、英國(guó)環(huán)境研究委員會(huì)(NERC)[18];同時(shí)納入美國(guó)國(guó)家科學(xué)基金委(NSF)[19]和美國(guó)國(guó)立衛(wèi)生研究院(NIH)[20]共計(jì)8所科研資助機(jī)構(gòu)作為分析對(duì)象。
英國(guó)癌癥研究中心(CRUK)[14]在其“數(shù)據(jù)共享和保護(hù)策略”中提出該條例不規(guī)定研究者應(yīng)該何時(shí)以及如何保護(hù)和共享數(shù)據(jù),而是使研究者在計(jì)劃和進(jìn)行研究時(shí)明確應(yīng)該注意的問(wèn)題。調(diào)研中也發(fā)現(xiàn),除了美國(guó)國(guó)立衛(wèi)生研究院(NIH)[20]就人類受試者的隱私和數(shù)據(jù)保護(hù)問(wèn)題進(jìn)行了相對(duì)具體的規(guī)定,其余基金組織及科研資助機(jī)構(gòu)主要著眼于從整體政策的角度探討科研數(shù)據(jù)共享與安全中可能存在的問(wèn)題,而不涉及具體數(shù)據(jù)的識(shí)別、處理和監(jiān)管細(xì)則。8所國(guó)外組織機(jī)構(gòu)中涉及數(shù)據(jù)共享中數(shù)據(jù)安全問(wèn)題的代表性文件及政策細(xì)則如表1所示。
從表1的結(jié)果可知,這些機(jī)構(gòu)普遍具有與數(shù)據(jù)共享與安全相關(guān)的政策或規(guī)定,但是這些規(guī)定大都以“數(shù)據(jù)”作為其命名主要成分,沒(méi)有將“數(shù)據(jù)安全”問(wèn)題作為獨(dú)立個(gè)體進(jìn)行規(guī)范,數(shù)據(jù)安全問(wèn)題僅僅是其政策規(guī)定的部分內(nèi)容。
這些機(jī)構(gòu)在數(shù)據(jù)共享與安全問(wèn)題的基本原則上都鼓勵(lì)共享,如RCUK的“最大化共享”,CRUK的“及時(shí)、負(fù)責(zé)任的共享”,NIH的“廣泛、免費(fèi)的共享”等,也都承認(rèn)存在數(shù)據(jù)安全或數(shù)據(jù)隱私的問(wèn)題,這些問(wèn)題可能包括數(shù)據(jù)的機(jī)密性、敏感性,受試者的隱私等各類法律倫理限制,而當(dāng)研究涉及人類時(shí),數(shù)據(jù)的安全問(wèn)題就顯得尤為重要。NIH[20]規(guī)定涉及人類受試者的數(shù)據(jù)應(yīng)遵守HIPPA隱私規(guī)則,受機(jī)構(gòu)審查委員會(huì)(IRB)的監(jiān)管;同時(shí)規(guī)定在數(shù)據(jù)共享前,應(yīng)進(jìn)行數(shù)據(jù)匿名處理。具體表現(xiàn)為重新修訂所有標(biāo)識(shí)符,以減少信息披露的風(fēng)險(xiǎn)。對(duì)于姓名、地址、電話號(hào)碼和社會(huì)安全號(hào)碼一類的直接標(biāo)識(shí)符應(yīng)直接刪除;對(duì)于間接標(biāo)識(shí)符和其他信息應(yīng)防止“演繹披露”的發(fā)生。(所謂“演繹披露”即通過(guò)一些變量的聯(lián)系推測(cè)出一些關(guān)鍵的變量特征。如將人口信息、地理信息和其他信息聯(lián)系起來(lái)可能反映出受試者的某些隱私信息。)在數(shù)據(jù)共享中可采用兩種方式來(lái)確保數(shù)據(jù)安全:僅保留數(shù)據(jù)的一部分內(nèi)容;或是從統(tǒng)計(jì)學(xué)的角度對(duì)數(shù)據(jù)進(jìn)行二次編碼。
在數(shù)據(jù)安全相關(guān)問(wèn)題的關(guān)注時(shí)間上,RCUK、CRUK、NSF、NIH等科研機(jī)構(gòu)都主張任何有關(guān)數(shù)據(jù)的問(wèn)題都應(yīng)該在研究開(kāi)始前就先被考慮到。ESRC承認(rèn)法律、倫理或商業(yè)約束會(huì)影響數(shù)據(jù)共享,提出這些限制應(yīng)該被詳細(xì)考慮在研究開(kāi)始之前,并貫穿研究數(shù)據(jù)的整個(gè)生命周期中。此外,調(diào)研發(fā)現(xiàn)8個(gè)科研資助機(jī)構(gòu)都規(guī)定研究者在申請(qǐng)項(xiàng)目時(shí)應(yīng)該同時(shí)提交一份類似于“數(shù)據(jù)管理和共享計(jì)劃”的文件。該文件作為申請(qǐng)的評(píng)估對(duì)象之一描述的是申請(qǐng)者對(duì)申請(qǐng)項(xiàng)目研究成果共享中應(yīng)該遵守的政策規(guī)定。例如NSF[19]的數(shù)據(jù)管理和共享計(jì)劃要求包括以下5方面的內(nèi)容:①研究中的數(shù)據(jù)、樣本、物理集合、軟件、課程材料和項(xiàng)目過(guò)程中產(chǎn)生的其他材料的類型;②數(shù)據(jù)的標(biāo)準(zhǔn),元數(shù)據(jù)的格式和內(nèi)容;③適當(dāng)?shù)碾[私保護(hù),數(shù)據(jù)機(jī)密性,安全性,知識(shí)產(chǎn)權(quán)或其他權(quán)利或要求;④對(duì)重用、再分配及項(xiàng)目衍生品生產(chǎn)的政策或規(guī)定;⑤對(duì)數(shù)據(jù)、樣本和其他研究產(chǎn)品的歸檔及訪問(wèn)保護(hù)計(jì)劃。
從數(shù)據(jù)的識(shí)別和評(píng)估來(lái)看,尚未有政策直接對(duì)如何識(shí)別敏感數(shù)據(jù)進(jìn)行規(guī)定。但ESRC依據(jù)其細(xì)節(jié)、敏感性和機(jī)密性水平對(duì)數(shù)據(jù)進(jìn)行分類,在此分類基礎(chǔ)上進(jìn)行數(shù)據(jù)處理和數(shù)據(jù)安全保障的控制,因而從實(shí)質(zhì)說(shuō)來(lái),數(shù)據(jù)分類的過(guò)程就是數(shù)據(jù)識(shí)別或評(píng)估的過(guò)程。
2)高校。高校作為研究實(shí)體,在依據(jù)各科研資助機(jī)構(gòu)政策規(guī)則的基礎(chǔ)上,對(duì)實(shí)際數(shù)據(jù)的識(shí)別和敏感數(shù)據(jù)的處理方面進(jìn)行了更詳盡的規(guī)定,盡可能地將存在共享限制或潛在威脅的數(shù)據(jù)轉(zhuǎn)化為可以公開(kāi)的數(shù)據(jù),在更大程度和范圍上實(shí)現(xiàn)科研數(shù)據(jù)的共享。本文選取了哈佛大學(xué)[21]、麻省理工學(xué)院[22]、加州大學(xué)伯克利分校[23]、斯坦福大學(xué)[24]、牛津大學(xué)[25]5所國(guó)外優(yōu)秀高校,考察其已有的科研數(shù)據(jù)共享與安全的管理政策,特別關(guān)注其中關(guān)于數(shù)據(jù)的識(shí)別、監(jiān)管和處理細(xì)節(jié),具體如表2所示。
從表2可以看出,在數(shù)據(jù)評(píng)估與識(shí)別上,部分高校對(duì)其科研數(shù)據(jù)類型進(jìn)行了劃分。其中哈佛大學(xué)為解決各領(lǐng)域機(jī)密和敏感數(shù)據(jù)的保護(hù)問(wèn)題,在其數(shù)據(jù)安全政策(HRDSP)[21]中,將不同領(lǐng)域的數(shù)據(jù)依據(jù)其安全控制需求的程度分為5個(gè)級(jí)別,分別是:(1)非機(jī)密研究信息;(2)應(yīng)該設(shè)為機(jī)密的信息;(3)敏感或者機(jī)密的信息;(4)非常敏感的信息;⑤極度敏感的信息。絕大多數(shù)涉及人類受試者的敏感數(shù)據(jù)被劃分為第3級(jí)數(shù)據(jù),與國(guó)家安全相關(guān)的數(shù)據(jù)通常屬于第4級(jí)數(shù)據(jù)。HRDSP還規(guī)定了每個(gè)級(jí)別數(shù)據(jù)的最低保護(hù)要求。研究人員在項(xiàng)目初始之時(shí),首先需要為即將產(chǎn)生的數(shù)據(jù)確立一個(gè)安全級(jí)別,以確定研究中對(duì)產(chǎn)生數(shù)據(jù)的安全控制水平。研究者可自行確定研究數(shù)據(jù)1~3級(jí)安全級(jí)別,但若研究涉及4、5級(jí)數(shù)據(jù),則需要提交哈佛大學(xué)信息技術(shù)委員會(huì)(HUIT)審批。加州大學(xué)伯克利分校[23]基于數(shù)據(jù)需要保護(hù)的水平,制定了一套數(shù)據(jù)分類標(biāo)準(zhǔn),以此評(píng)估數(shù)據(jù)的敏感性,具體分為0~3共4個(gè)級(jí)別。0級(jí):公開(kāi)的信息,例如網(wǎng)頁(yè)、課程信息等;1級(jí):在一定條件下可發(fā)布的信息,例如學(xué)生學(xué)號(hào);2級(jí):有一定保密要求的數(shù)據(jù)元素,例如社會(huì)保險(xiǎn)號(hào);3級(jí):在多個(gè)敏感系統(tǒng)之間存在共享風(fēng)險(xiǎn)的數(shù)據(jù),例如備份數(shù)據(jù)系統(tǒng)。此外,未對(duì)數(shù)據(jù)進(jìn)行分類的高校,共享中被限制較多的數(shù)據(jù)主要集中在人類受試者數(shù)據(jù)、醫(yī)療健康數(shù)據(jù)、敏感數(shù)據(jù)和機(jī)密數(shù)據(jù)幾部分。
在數(shù)據(jù)監(jiān)管責(zé)任者方面,國(guó)外的高校主要集中在對(duì)人類受試者數(shù)據(jù)和醫(yī)療健康數(shù)據(jù)設(shè)有相應(yīng)的評(píng)估機(jī)構(gòu)和評(píng)估規(guī)范來(lái)確定該數(shù)據(jù)是否滿足共享的標(biāo)準(zhǔn)或是否觸犯相應(yīng)的限制。哈佛大學(xué)和斯坦福大學(xué)都設(shè)有機(jī)構(gòu)審查委員會(huì),麻省理工學(xué)院設(shè)有人類被試委員會(huì),加州大學(xué)伯克利分校設(shè)有保護(hù)人類受試者委員會(huì),牛津大學(xué)設(shè)有研究倫理委員會(huì)對(duì)人類受試者數(shù)據(jù)進(jìn)行評(píng)估。哈佛大學(xué)、麻省理工學(xué)院和斯坦福大學(xué)等還規(guī)定人類受試者和醫(yī)療健康數(shù)據(jù)必須遵守HIPPA隱私規(guī)則。這些機(jī)構(gòu)或規(guī)則都以保護(hù)科研活動(dòng)中的人類受試者為主要目的。以哈佛大學(xué)的機(jī)構(gòu)審查委員會(huì)為例,下設(shè)人類受試者使用委員會(huì)(CUHS)和人類研究管理辦公室(OHRA)分管不同的項(xiàng)目。當(dāng)研究涉及與人相關(guān)的新藥物或療法的調(diào)查、觀察研究、人體組織研究或其他關(guān)于人類的數(shù)據(jù)研究時(shí),都必須在項(xiàng)目開(kāi)始之前向IRB的ESTR平臺(tái)提交申請(qǐng),申請(qǐng)包括其項(xiàng)目的完成形式和示例文檔,由IRB對(duì)應(yīng)辦公室人員進(jìn)行4周左右的時(shí)間審核,返回審核結(jié)果之后才能啟動(dòng)研究項(xiàng)目。有時(shí),一個(gè)研究項(xiàng)目可能需要多個(gè)委員會(huì)共同審核及批準(zhǔn),例如當(dāng)進(jìn)行干細(xì)胞研究時(shí),哈佛大學(xué)就規(guī)定需要經(jīng)IRB和胚胎干細(xì)胞研究監(jiān)察委員會(huì)的共同審核。除了對(duì)人類受試者和醫(yī)療健康數(shù)據(jù)進(jìn)行監(jiān)管外,對(duì)于其他領(lǐng)域的數(shù)據(jù),各高校也設(shè)立了對(duì)應(yīng)的責(zé)任機(jī)構(gòu),例如哈佛大學(xué)在處理生物數(shù)據(jù)安全的相關(guān)問(wèn)題時(shí),通過(guò)微生物安全委員會(huì)的監(jiān)管來(lái)進(jìn)行。
在數(shù)據(jù)處理方面,目前主要采用數(shù)據(jù)匿名或數(shù)據(jù)調(diào)整的方式對(duì)敏感數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)匿名和數(shù)據(jù)調(diào)整方法是對(duì)科研數(shù)據(jù)中與研究對(duì)象身份相關(guān)的直接標(biāo)識(shí)符進(jìn)行刪除處理,部分間接標(biāo)識(shí)符進(jìn)行重新編碼后有選擇地共享,但處理的力度可能依據(jù)數(shù)據(jù)分類的不同級(jí)別而有所不同。對(duì)于可將變量之間相互關(guān)聯(lián),從而能透露身份信息的關(guān)系數(shù)據(jù)應(yīng)受到特別的關(guān)注。但數(shù)據(jù)處理也不宜過(guò)度,牛津大學(xué)指出,應(yīng)實(shí)現(xiàn)合理化水平的數(shù)據(jù)匿名,不可不切實(shí)際或過(guò)于嚴(yán)厲地處理數(shù)據(jù),當(dāng)研究數(shù)據(jù)是一些采訪轉(zhuǎn)錄時(shí),粗暴地刪除或聚合標(biāo)識(shí)符,將使數(shù)據(jù)扭曲無(wú)法使用,可使用替代或模糊描述的方式加以轉(zhuǎn)化。
3)期刊、數(shù)據(jù)庫(kù)。除了上述機(jī)構(gòu)和高校外,還有一些與科學(xué)研究密切相關(guān)的機(jī)構(gòu)組織也關(guān)注科研數(shù)據(jù)的共享與安全問(wèn)題,期刊和數(shù)據(jù)庫(kù)就是其中的代表。
《自然》[26]提出對(duì)出版論文及其數(shù)據(jù)訪問(wèn)中可能造成的社會(huì)影響所產(chǎn)生的擔(dān)憂,這其中包括倫理問(wèn)題、生物安全問(wèn)題等。特別指出由于生化武器威脅的存在,對(duì)于生物論文及其數(shù)據(jù)的潛在安全威脅應(yīng)由專家學(xué)者進(jìn)行風(fēng)險(xiǎn)評(píng)估,并應(yīng)有一個(gè)合適的政策來(lái)處理此類問(wèn)題。盡管如此,在遵循共享與安全問(wèn)題處理的基本原則基礎(chǔ)上,編輯部仍是鼓勵(lì)共享的。2012年2月《自然》期刊編輯部提出“盡管尚存爭(zhēng)議,但發(fā)布敏感數(shù)據(jù)的好處遠(yuǎn)大于不出版它們所面臨的風(fēng)險(xiǎn)”[27],因而決定將一篇流感的論文全部出版。雖然面臨其中流感病毒的數(shù)據(jù)可能被恐怖組織或是個(gè)人瘋狂行為濫用的風(fēng)險(xiǎn),但是該數(shù)據(jù)的發(fā)布對(duì)流感病毒的監(jiān)測(cè)和人體健康具有重大意義。
美國(guó)校際社會(huì)科學(xué)數(shù)據(jù)共享聯(lián)盟(Inter-university Consortium for Political and Social Research,ICPSR)[28]是現(xiàn)在世界上最大的社會(huì)科學(xué)數(shù)據(jù)中心,在收集社會(huì)科學(xué)數(shù)據(jù)的過(guò)程中,也特別關(guān)注對(duì)受試者身份的保護(hù)。ICPSR規(guī)定在數(shù)據(jù)共享之前應(yīng)將信息重新編碼,包括將日期轉(zhuǎn)換為時(shí)間間隔,將出生日期轉(zhuǎn)換為年齡組,將詳細(xì)的地理信息轉(zhuǎn)換為更廣泛的地理位置,將收入轉(zhuǎn)換為收入類別等。將被試的標(biāo)識(shí)分為直接標(biāo)識(shí)符和間接標(biāo)識(shí)符兩類,對(duì)于顯性地指向特定的個(gè)人或單位的直接標(biāo)識(shí)符在數(shù)據(jù)共享前必須進(jìn)行移除或掩蓋。
2.2 “鼓勵(lì)共享,安全不足”的國(guó)內(nèi)科研數(shù)據(jù)管理政策
與國(guó)外在科研數(shù)據(jù)共享與安全問(wèn)題上的“鼓勵(lì)共享,安全協(xié)同”管理政策有所不同,國(guó)內(nèi)在科研數(shù)據(jù)的管理中整體上呈現(xiàn)“鼓勵(lì)共享,安全不足”的狀態(tài)。
我國(guó)近年來(lái)建立了多個(gè)與數(shù)據(jù)共享相關(guān)的平臺(tái)。從國(guó)家角度,為加強(qiáng)科技創(chuàng)新基礎(chǔ)能力建設(shè),推動(dòng)我國(guó)科技資源的整合共享與高效利用,按照《關(guān)于開(kāi)展國(guó)家科技基礎(chǔ)條件平臺(tái)認(rèn)定和績(jī)效考核工作的通知》(國(guó)科發(fā)計(jì)[2011]318號(hào))要求,科技部與各大高校、研究機(jī)構(gòu)合作,完成了首批23家國(guó)家科技基礎(chǔ)條件平臺(tái)認(rèn)定評(píng)審工作,并于2011年11月9日向全社會(huì)公布。其中包括6個(gè)科學(xué)數(shù)據(jù)共享平臺(tái),分別是:林業(yè)科學(xué)數(shù)據(jù)平臺(tái)[29]、地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)[30]、人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)[31]、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心[32]、地震科學(xué)數(shù)據(jù)共享中心[33]、氣象科學(xué)數(shù)據(jù)共享中心[34]。各省市地方響應(yīng)號(hào)召,建立起各自的科學(xué)數(shù)據(jù)共享平臺(tái),目前已完成的包括陜西省科學(xué)數(shù)據(jù)共享平臺(tái)[35]、山西省科學(xué)數(shù)據(jù)共享平臺(tái)[36]。此外,各高校和科研院所也逐步建立起自己的科研數(shù)據(jù)共享平臺(tái)或中心,例如北京大學(xué)[37]設(shè)立的開(kāi)放研究數(shù)據(jù)平臺(tái),中國(guó)科學(xué)院的基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)[38],等等。
本文選取科技部的建構(gòu)較為完善的6個(gè)科學(xué)數(shù)據(jù)共享平臺(tái),來(lái)了解國(guó)內(nèi)科研數(shù)據(jù)共享與安全管理政策的大致發(fā)展情況,具體如表3所示。
從表3中可以看出,林業(yè)科學(xué)數(shù)據(jù)平臺(tái)、人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心和地震科學(xué)數(shù)據(jù)共享中心都已經(jīng)意識(shí)到共享數(shù)據(jù)存在安全問(wèn)題,特別是涉及國(guó)家安全的涉密數(shù)據(jù)的安全問(wèn)題。除此之外,還有個(gè)人隱私等法律限制方面的問(wèn)題,并將具體規(guī)定寫入各自的數(shù)據(jù)共享管理辦法或數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)中。
數(shù)據(jù)分類可以在一定程度上為共享數(shù)據(jù)的限制評(píng)估做準(zhǔn)備。在數(shù)據(jù)分類上,地震科學(xué)數(shù)據(jù)共享中心根據(jù)地震科學(xué)數(shù)據(jù)發(fā)布和共享的范圍,將數(shù)據(jù)劃分為以下4級(jí):1級(jí)數(shù)據(jù),凡可向社會(huì)公眾公開(kāi)發(fā)布的數(shù)據(jù);2級(jí)數(shù)據(jù),能夠向國(guó)內(nèi)、國(guó)外用戶提供的數(shù)據(jù);3級(jí)數(shù)據(jù),可以向國(guó)內(nèi)用戶提供的數(shù)據(jù);4級(jí)數(shù)據(jù),只允許向特定范圍的用戶提供的數(shù)據(jù)。并規(guī)定用戶使用1級(jí)數(shù)據(jù),可以在地震科學(xué)數(shù)據(jù)共享服務(wù)機(jī)構(gòu)的網(wǎng)站上瀏覽、查詢和下載;用戶使用2級(jí)和3級(jí)數(shù)據(jù),應(yīng)在地震科學(xué)數(shù)據(jù)共享服務(wù)機(jī)構(gòu)的網(wǎng)站上完成相應(yīng)的注冊(cè)程序后獲得,必要時(shí)也可通過(guò)簽訂合同的方式獲得;用戶使用4級(jí)數(shù)據(jù),應(yīng)向地震科學(xué)數(shù)據(jù)共享服務(wù)機(jī)構(gòu)提出申請(qǐng),并經(jīng)審核后方可獲取所需數(shù)據(jù)。林業(yè)科學(xué)數(shù)據(jù)平臺(tái)和人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)則根據(jù)《GB/T7156—1987文獻(xiàn)保密等級(jí)代碼》,將數(shù)據(jù)劃分為6個(gè)保密級(jí)別,分別為公開(kāi)數(shù)據(jù)、國(guó)家內(nèi)部數(shù)據(jù)、部門內(nèi)部數(shù)據(jù)、秘密數(shù)據(jù)、機(jī)密數(shù)據(jù)、絕密數(shù)據(jù)。
總體看來(lái),國(guó)內(nèi)的部分?jǐn)?shù)據(jù)共享平臺(tái)雖然能夠意識(shí)到數(shù)據(jù)安全問(wèn)題的存在,也有一定的數(shù)據(jù)管理政策或規(guī)定,但其對(duì)于數(shù)據(jù)類型的劃分或者是限制共享數(shù)據(jù)的識(shí)別的規(guī)定還過(guò)于寬泛,缺乏評(píng)估或識(shí)別的標(biāo)準(zhǔn),也缺乏在數(shù)據(jù)評(píng)估執(zhí)行中的責(zé)任或監(jiān)管機(jī)構(gòu)。同時(shí),對(duì)于存在共享限制但在一定條件下能夠共享的數(shù)據(jù),目前也沒(méi)有一套公開(kāi)的數(shù)據(jù)處理管理辦法。
3 總結(jié)和建議
通過(guò)對(duì)比國(guó)內(nèi)外科研機(jī)構(gòu)數(shù)據(jù)共享與安全管理的相關(guān)政策規(guī)定可以發(fā)現(xiàn),目前,國(guó)外主要采用“鼓勵(lì)共享,安全協(xié)同”的科研數(shù)據(jù)管理政策,對(duì)科研數(shù)據(jù)共享中的數(shù)據(jù)安全意識(shí)較高,管理架構(gòu)相對(duì)完善。國(guó)內(nèi)也開(kāi)始意識(shí)到數(shù)據(jù)安全相關(guān)的問(wèn)題,但仍處于探索發(fā)展階段,呈現(xiàn)“鼓勵(lì)共享,安全不足”的狀態(tài)?;谖覈?guó)共享中的數(shù)據(jù)安全管理政策存在的不足,本文提出以下幾點(diǎn)建議:
第一,建立一套相對(duì)完整的數(shù)據(jù)安全問(wèn)題評(píng)估標(biāo)準(zhǔn)。雖然部分?jǐn)?shù)據(jù)共享平臺(tái)嘗試進(jìn)行數(shù)據(jù)分類,但此種分類主要圍繞數(shù)據(jù)的保密分級(jí)進(jìn)行,與數(shù)據(jù)的隱私、健康信息識(shí)別、數(shù)據(jù)的安全敏感度或潛在威脅識(shí)別等要求尚有不小的距離。在評(píng)估規(guī)范中落實(shí)關(guān)注安全隱患、對(duì)潛在威脅進(jìn)行評(píng)估,才有可能識(shí)別出共享交流中存在安全問(wèn)題的數(shù)據(jù)。
第二,組建跨領(lǐng)域的數(shù)據(jù)共享監(jiān)管責(zé)任團(tuán)隊(duì)。目前,國(guó)內(nèi)的數(shù)據(jù)共享平臺(tái)中,數(shù)據(jù)使用及共享管理僅對(duì)本平臺(tái)負(fù)責(zé),缺乏跨域、跨平臺(tái)的安全評(píng)估或監(jiān)管介入,留出對(duì)科研數(shù)據(jù)共享的監(jiān)管漏洞。
第三,權(quán)衡處理好數(shù)據(jù)安全與共享的關(guān)系問(wèn)題。數(shù)據(jù)調(diào)整和數(shù)據(jù)匿名的方式,我們可以借鑒,但應(yīng)慎重把握數(shù)據(jù)共享和數(shù)據(jù)安全中的度。過(guò)度調(diào)整雖然在一定程度上保護(hù)了數(shù)據(jù),但也在更大程度上阻礙了數(shù)據(jù)的共享。
參考文獻(xiàn):
[1]姜鑫.科學(xué)數(shù)據(jù)開(kāi)放政策研究現(xiàn)狀分析及未來(lái)研究動(dòng)向評(píng)判[J].現(xiàn)代情報(bào),2016,36(2):167-170.
[2]馬海群,蒲攀.國(guó)內(nèi)外開(kāi)放數(shù)據(jù)政策研究現(xiàn)狀分析及我國(guó)研究動(dòng)向研判[J].中國(guó)圖書館學(xué)報(bào),2015(5):76-86.
[3]張瑤,顧立平,楊云秀,等.國(guó)外科研資助機(jī)構(gòu)數(shù)據(jù)政策的調(diào)研與分析——以英美研究理事會(huì)為例[J].圖書情報(bào)工作,2015,59(6):53-60.
[4]丁培.國(guó)外大學(xué)科研數(shù)據(jù)管理政策研究[J].圖書館論壇,2014(5):99-106.
[5]張閃閃,顧立平,蓋曉良.國(guó)外信息服務(wù)機(jī)構(gòu)的數(shù)據(jù)管理政策調(diào)研與分析[J].圖書情報(bào)知識(shí),2015,167(5):99-109.