公安大數(shù)據(jù)的建設需求
近年來隨著信息化技術的不斷發(fā)展,現(xiàn)有的公安警務數(shù)據(jù)中心無論是規(guī)模還是架構(gòu)都很難適應在海量數(shù)據(jù)場景下的數(shù)據(jù)管理和分析,直接影響了公安形勢預判和重大決策。因此,在現(xiàn)階段建設新的能夠匹配公安業(yè)務場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。
新建設的公安大數(shù)據(jù)系統(tǒng),將成為面向各警種的大數(shù)據(jù)管理和分析平臺,通過對海量數(shù)據(jù)的收集、整理、歸檔、分析、預測,從復雜的數(shù)據(jù)中挖掘出各類數(shù)據(jù)背后所蘊含的、內(nèi)在的、必然的因果關系,找到隱秘的規(guī)律,促使這些數(shù)據(jù)從量變到質(zhì)變,實現(xiàn)對海量數(shù)據(jù)的深度應用、綜合應用和高端應用。通過大數(shù)據(jù)的建設,使新系統(tǒng)能夠向各警種提供集中資源、集中管理、集中監(jiān)控和配套實施統(tǒng)一的大數(shù)據(jù)應用環(huán)境,保障在今后一個較長時期內(nèi)很好地擔負起對全局各警實戰(zhàn)應用的支撐、服務、保障作用。
那么,公安需要一個什么樣的大數(shù)據(jù)系統(tǒng)?
1.PB級數(shù)據(jù)存儲管理:信息化建設在推進,數(shù)據(jù)規(guī)模隨之飛速增長,為了滿足大規(guī)模數(shù)據(jù)的存儲和分析,大數(shù)據(jù)存儲系統(tǒng)應支持單一系統(tǒng)擴展至10PB以上規(guī)模,以滿足未來數(shù)據(jù)爆發(fā)的存儲需要
2.多種數(shù)據(jù)類型與協(xié)議支持:公安數(shù)據(jù)形式多樣,包含文檔、圖片、視頻、柵格、矢量等,因此該系統(tǒng)需要能夠支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多種數(shù)據(jù)類型,提供NFS/CIFS/JDBC/ODBC等多種接口,以便業(yè)務對多種數(shù)據(jù)進行訪問和操作;
3.高質(zhì)量的數(shù)據(jù)整合:好的數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析挖掘等有效應用的基本條件,面對公安行業(yè)交互復雜而繁多的系統(tǒng),勢必需要將這些多源異構(gòu)的數(shù)據(jù)進行抽取、轉(zhuǎn)換及裝載,實現(xiàn)數(shù)據(jù)的整合、消重,提供高質(zhì)量的數(shù)據(jù),在此基礎上進行關聯(lián)、建模,為實戰(zhàn)業(yè)務提供可用的數(shù)據(jù);
4.高效的數(shù)據(jù)分析能力:百億條記錄的檢索、上千張表的碰撞、幾百個小時的視頻分析、大量的移動互聯(lián)網(wǎng)和社交媒體數(shù)據(jù)處理等應用,無不對大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)分析能力提出更高的要求;
5.可管理和開放性:可管理、開放化、標準化的大數(shù)據(jù)技術體系架構(gòu),不僅可以為公安帶來更高的性價比、更出色的擴展性,更能為警務建設在大數(shù)據(jù)平臺上開展新探索、新應用解除后顧之憂;
6.安全可靠,自主可控:公安系統(tǒng)中很多數(shù)據(jù)關系著國家安全和人民生命財產(chǎn)安全,因此,要求該系統(tǒng)具備非常高的可靠性,同時,為進一步加強數(shù)據(jù)安全性,避免數(shù)據(jù)泄露,最好選用具備完全自主知識產(chǎn)權的國產(chǎn)設備和系統(tǒng)。
公安大數(shù)據(jù)的技術選型
大數(shù)據(jù)的實質(zhì)是對數(shù)據(jù)的管理與開發(fā)利用,與當前以信息資源開發(fā)為核心的公安工作具有廣泛的共通性,如何借助大數(shù)據(jù)技術推動公安工作的發(fā)展和變革?技術選型非常重要。在各個企業(yè)和組織紛紛助推下,大數(shù)據(jù)領域的相關技術呈現(xiàn)百花齊放局面,涵蓋數(shù)據(jù)收集、存儲、計算、挖掘、資源調(diào)度等,下面就以最核心的計算層和存儲層兩個維度介紹下有關技術路線和發(fā)展趨勢。
數(shù)據(jù)處理:
簡而言之,不管對何種應用,當數(shù)據(jù)量很大時就無法在一臺服務器上解決計算問題,此時分布式計算優(yōu)勢就體現(xiàn)出來,而Hadoop MapReduce的重要創(chuàng)新便是當處理一個大數(shù)據(jù)集時會將其任務分解并在運行的多個節(jié)點中處理,這種批處理框架常用于離線的復雜的非結(jié)構(gòu)化數(shù)據(jù)處理,如ETL、數(shù)據(jù)挖掘等場景;與Hadoop的使用硬盤來存儲數(shù)據(jù)不同,Spark是基于內(nèi)存的迭代計算框架,適用于需要多次操作特定數(shù)據(jù)集的應用場合;而Storm則是專門針對實時數(shù)據(jù)類型的流式計算分析框架,應用在低延遲的場景中,實現(xiàn)海量事件的實時分析、處理和決策。除此之外,為應對不斷增長的海量結(jié)構(gòu)化數(shù)據(jù)的存儲和快速處理以及靈活的業(yè)務建模需求,數(shù)據(jù)庫系統(tǒng)必將引入分布式架構(gòu)、MPP處理技術。
數(shù)據(jù)存儲:
上面提到了MapReduce將任務分發(fā)到多個服務器上處理大數(shù)據(jù)的能力。而對于分布式計算,每個服務器必須具備對數(shù)據(jù)的訪問能力,這就是HDFS所起到的作用,HDFS有著高容錯性、高吞吐量的特點,適合大數(shù)據(jù)集的應用。與此同時,業(yè)內(nèi)也有許多其他類型的文件系統(tǒng)推出,不僅能解決了傳統(tǒng)存儲體系結(jié)構(gòu)存在的難題,又能提高存儲利用率和數(shù)據(jù)讀寫性能,可以替代HDFS作為Hadoop架構(gòu)的底層文件系統(tǒng)/數(shù)據(jù)存儲。
不同的技術思路各有偏重,由于公安業(yè)務種類繁多,大數(shù)據(jù)應用場景多樣化,除了建立各類基礎大數(shù)據(jù)資源庫之外,還需要做到事前預測警務研判、事中實時情報分析及事后案事件分析,及可視化查詢統(tǒng)計等,建議公安用戶基于智能融合的大數(shù)據(jù)架構(gòu)構(gòu)建上層應用,積極引入大數(shù)據(jù)領域的先進技術,推動公安工作邁入大數(shù)據(jù)發(fā)展階段。
華為大數(shù)據(jù)解決方案服務公安
華為匯集國內(nèi)外的大數(shù)據(jù)專家,構(gòu)建世界級的大數(shù)據(jù)團隊,全面覆蓋大數(shù)據(jù)領域關鍵技術,推出了智能融合的大數(shù)據(jù)解決方案,已在全球電信市場、國內(nèi)金融行業(yè)和政府涉密部門等擁有大量實踐及成功案例,例如招商銀行、建設銀行、工商銀行、上海聯(lián)通和江蘇移動等,并與多地公安機關和公安行業(yè)應用廠家展開緊密合作,致力于為公安用戶打造服務于實戰(zhàn)應用的大數(shù)據(jù)方案。
華為大數(shù)據(jù)方案融合了基礎設施層面的OceanStor 9000大數(shù)據(jù)存儲,RH2288通用X86服務器,和數(shù)據(jù)管理分析層面的FusionInsight企業(yè)級Hadoop,該方案在公安領域的價值體現(xiàn)包括:
建立融合海量異構(gòu)多源數(shù)據(jù)的公安信息資源庫,將更大規(guī)模、更多類型的數(shù)據(jù)納入大數(shù)據(jù)平臺,拓寬公安的數(shù)據(jù)掌控面;
實現(xiàn)更快更準的智能搜索、關聯(lián)查詢和碰撞比對,提高研判分析效率;
融合多種分布式計算框架,處理更復雜的分析模型和預測模型,提升案件偵破能力;
保持大數(shù)據(jù)平臺100%的開放性,支持被集成,更穩(wěn)健地搭載公安業(yè)務;
華為公司戰(zhàn)略投入,強大的研發(fā)團隊長期從事大數(shù)據(jù)領域發(fā)展的研究,能助力公安的大數(shù)據(jù)實踐和探索。