干貨 面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘

責任編輯:editor006

2016-11-07 17:32:45

摘自:和訊名家

最后是時空數(shù)據(jù)模型的輸出選項,主要用于在構(gòu)建模型之前,使用此頁面中的選項來選擇要包括在模型輸出查看器中的輸出

第 1 部分早期的數(shù)據(jù)挖掘研究主要針對字符、數(shù)值型的商業(yè)數(shù)據(jù),隨著信息技術(shù)的不斷提高以及移動設(shè)備和網(wǎng)絡(luò)的廣泛使用,數(shù)據(jù)產(chǎn)生的速度越來越快,數(shù)據(jù)收集的頻率越來越高,數(shù)據(jù)密度的增長越來越顯著,這些因素都使得大數(shù)據(jù)問題成為一種必然的趨勢。而在大數(shù)據(jù)時代下很多商業(yè)數(shù)據(jù)都包含有時間和空間信息,比如設(shè)備,建筑,機構(gòu)等的管理,能量的產(chǎn)生,分布及預(yù)測等。

IBM SPSS Modeler 是參照行業(yè)標準 CRISP-DM 模型設(shè)計而成的數(shù)據(jù)挖掘工具,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個數(shù)據(jù)挖掘過程。通過結(jié)合時空數(shù)據(jù)和其他商業(yè)數(shù)據(jù),并且運用數(shù)據(jù)挖掘工具 IBM SPSS Modeler 對時間和空間屬性進行觀測分析,進而獲得對數(shù)據(jù)的充分理解,并將其應(yīng)用于商業(yè)活動,從而改進決策過程。

面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘的重要性

20世紀90年代中后期,數(shù)據(jù)挖掘領(lǐng)域的一些較成熟的技術(shù),如關(guān)聯(lián)規(guī)則挖掘、分類、預(yù)測與聚類等被逐漸用于時間序列數(shù)據(jù)挖掘和空間結(jié)構(gòu)數(shù)據(jù)挖掘,以發(fā)現(xiàn)與時間或空間相關(guān)的有價值的模式,并且得到了快速發(fā)展。信息網(wǎng)絡(luò)和手持移動設(shè)備等的普遍應(yīng)用,以及遙感衛(wèi)星和地理信息系統(tǒng)等的顯著進步,使人們前所未有地獲取了大量的地理科學數(shù)據(jù)。這些地理科學數(shù)據(jù)通常與時間序列相互關(guān)聯(lián),并且隱含許多不易發(fā)現(xiàn)的、又潛在有用的模式。從這些非線性、海量、高維和高噪聲的時空數(shù)據(jù)中提取出有價值的信息并用于商業(yè)應(yīng)用,使得時空數(shù)據(jù)挖掘具有額外的特殊性和復(fù)雜性。因此,尋找有效的時空數(shù)據(jù)分析技術(shù)對于時空數(shù)據(jù)中有價值的時空模式的自動抽取與分析具有重要意義。

近年來,時空數(shù)據(jù)已成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點,在國內(nèi)外贏得了廣泛關(guān)注。同時,時空數(shù)據(jù)挖掘也在許多領(lǐng)域得到應(yīng)用,如交通管理、犯罪分析、疾病監(jiān)控、環(huán)境監(jiān)測、公共衛(wèi)生與醫(yī)療健康等。時空數(shù)據(jù)挖掘作為一個新興的研究領(lǐng)域,正致力于開發(fā)和應(yīng)用新興的計算技術(shù)來分析海量、高維的時空數(shù)據(jù),發(fā)掘時空數(shù)據(jù)中有價值的信息。

面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘的挑戰(zhàn)

盡管時空數(shù)據(jù)挖掘研究在近幾年引起了人們的廣泛關(guān)注并得到快速發(fā)展,但與傳統(tǒng)數(shù)據(jù)挖掘相比,時空數(shù)據(jù)挖掘研究還遠未成熟。隨著時空數(shù)據(jù)采集效率的不斷提高,時空數(shù)據(jù)積累越來越大,時空數(shù)據(jù)挖掘也面臨諸多挑戰(zhàn)。

理論框架

相較于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),時空數(shù)據(jù)挖掘研究還遠未成熟。對于結(jié)構(gòu)復(fù)雜且形式多樣的時空數(shù)據(jù),如何尋找合適的數(shù)據(jù)挖掘算法或者技術(shù),可以挖掘什么有價值的模式,如何對這些模式進行分析?這些問題的解決都迫切需要構(gòu)建一個時空數(shù)據(jù)挖掘的理論框架。清晰定義的理論框架將會給該研究領(lǐng)域帶來理論上的指導,一方面可更好地理解時空模式需要具備的表達能力,另一方面有助于提出更有效的實現(xiàn)技術(shù)。

大數(shù)據(jù)管理

近年來,傳感器網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)、射頻識別、全球定位系統(tǒng)等設(shè)備的快速發(fā)展和廣泛應(yīng)用,造成數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)增加的速度遠遠超過現(xiàn)有的處理能力。雖然以 MapReduce 和 Hadoop 為代表的大規(guī)模并行計算平臺的出現(xiàn),為學術(shù)界提供了一條研究大數(shù)據(jù)問題的新思路,但這些技術(shù)也有其固有的局限性。一方面,時空數(shù)據(jù)本質(zhì)上是非結(jié)構(gòu)化數(shù)據(jù),不僅包含時間序列模型,還存在地圖模型,例如城市網(wǎng)絡(luò)、道路網(wǎng)絡(luò)等?;诘貓D模型的算法時間復(fù)雜度通常比較大,對時空數(shù)據(jù)的存儲管理和索引技術(shù)要求比較高。另一方面,MapReduce 計算模型的組織形式和數(shù)據(jù)處理方法不適合處理時空數(shù)據(jù)模型;Hadoop 技術(shù)也無法有效支持數(shù)據(jù)挖掘中監(jiān)督學習所用的迭代式計算方法,因而無法完全滿足時空數(shù)據(jù)分析的需要。這些對學術(shù)界和工業(yè)界來數(shù)都是一項巨大的挑戰(zhàn)。因此,為了分析處理時空大數(shù)據(jù),迫切需要更可靠、更有效和更實用的數(shù)據(jù)管理和處理技術(shù)。

時空數(shù)據(jù)融合

社交網(wǎng)絡(luò)、遙感和傳感器等設(shè)備的普遍應(yīng)用產(chǎn)生了海量的時空數(shù)據(jù),且每種設(shè)備生成的數(shù)據(jù)和數(shù)據(jù)形式各不相同,形成了時空數(shù)據(jù)結(jié)構(gòu)復(fù)雜且來源多樣的特性。此外,互聯(lián)網(wǎng)的蓬勃發(fā)展,在文字、音頻和視頻等多媒體數(shù)據(jù)中同樣包含了豐富的時空數(shù)據(jù)。例如,廣泛覆蓋城市的監(jiān)控攝像頭,記錄了道路車輛的軌跡信息,從視頻中可以還原出被監(jiān)控車輛的移動軌跡。所以,對時空數(shù)據(jù)進行有效整合、清洗、轉(zhuǎn)換和提取是時空數(shù)據(jù)預(yù)處理面臨的重要問題。

時空推理和數(shù)據(jù)挖掘的深度結(jié)合

時空數(shù)據(jù)中的時間關(guān)系和空間關(guān)系通常比較復(fù)雜,尤其很多可度量的和不可度量的時間關(guān)系和空間關(guān)系都是隱含在時空數(shù)據(jù)中,這就需要在數(shù)據(jù)挖掘系統(tǒng)中結(jié)合時空推理加以考慮這些復(fù)雜的時空關(guān)系。時空推理和數(shù)據(jù)挖掘的深度結(jié)合,一方面可以發(fā)掘更多時空模式及信息,增強時空模式的可理解性;另一方面可以顯著提高挖掘的效率和質(zhì)量。但有利亦有弊:挖掘數(shù)據(jù)中隱含的時空關(guān)系必然會引入某種程度的不確定性和模糊性,這將很大程度上影響數(shù)據(jù)挖掘的結(jié)果。因此,結(jié)合時空推理和數(shù)據(jù)挖掘需要適當折中模型表達能力和時空推理能力。

面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘的應(yīng)用

如上所述,時空數(shù)據(jù)挖掘的應(yīng)用非常廣泛,如交通運輸、地質(zhì)災(zāi)害監(jiān)測與預(yù)防、氣象研究、競技體育、犯罪分析、公共衛(wèi)生與醫(yī)療及社交網(wǎng)絡(luò)應(yīng)用等。這里我們簡單介紹兩個時空數(shù)據(jù)挖掘的應(yīng)用案例,借此了解一下時空數(shù)據(jù)挖掘在現(xiàn)實生活中的實際應(yīng)用。

案例一 - 時空數(shù)據(jù)分析預(yù)測

第一個案例是關(guān)于亞特蘭大某地區(qū)如何根據(jù) 1997 年到 2005 年的人口普查數(shù)據(jù)從而選擇 2006 年需要新建銀行分行的地點。我們收集的數(shù)據(jù)包括:1)該地區(qū)的地理信息(地圖文件);2)該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況,包括每個分行的具體地址等;3)該地區(qū)從 1997 年到 2005 年的人口統(tǒng)計信息,包括區(qū)域 ID,人口密度,家庭收入,男女比例,人種比例等。通過時空數(shù)據(jù)預(yù)測分析,我們可以根據(jù)往年銀行分行的發(fā)展趨勢預(yù)測出該城市銀行分行在下一年即 2006 年的分布密度,同時可以根據(jù)該城市家庭收入預(yù)測出 2006 年的客戶需求,從而得出基于時空數(shù)據(jù)的銀行分行的供求關(guān)系,繼而確定需要在下一年新建銀行分行的準確地點,即選擇供不應(yīng)求的地點進行銀行新建。

案例二- 時空數(shù)據(jù)關(guān)聯(lián)規(guī)則

第二個案例是基于一件發(fā)生在美國華盛頓州斯波坎市的一個真實的犯罪歷史的犯罪模型分析。這則犯罪事故共發(fā)生犯罪事件 816 起,犯罪類型包括吸毒(167 起),搶劫(97 起)和車輛盜竊(552 起),發(fā)生時間從 2009 年 1 月到 2010 年 3 月,涉及斯波坎市的 10 個區(qū)和 23 條主要街道。我們得到的數(shù)據(jù)包括斯波坎市的部分地圖信息,三種犯罪類型的統(tǒng)計信息以及該地區(qū)的人口統(tǒng)計信息,包括人口密度,家庭收入,男女比例,人種比例等。通過時空數(shù)據(jù)關(guān)聯(lián)規(guī)則分析,我們可以根據(jù)每種犯罪事件發(fā)生的時間和地點得出該種犯罪類型和特定時間段和地理位置的關(guān)聯(lián)關(guān)系,比如周末在公路附近多發(fā)吸毒事件等。同時我們還可以從時空數(shù)據(jù)分析中得到非時空數(shù)據(jù)的關(guān)聯(lián)關(guān)系,比如人口密度小的地區(qū)多發(fā)搶劫事件等。

時空數(shù)據(jù)理解

與傳統(tǒng)的數(shù)據(jù)挖掘一樣,不管是時空數(shù)據(jù)分類預(yù)測,時空數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘還是時空聚類,獲取足夠的時空數(shù)據(jù)并充分理解這些數(shù)據(jù)的特征及屬性是時空數(shù)據(jù)挖掘的先決條件。時空數(shù)據(jù),顧名思義,必然包括與時間序列相關(guān)的數(shù)據(jù)以及與空間地理位置相關(guān)的數(shù)據(jù),另外時空數(shù)據(jù)挖掘還必須包含將要分析預(yù)測或者尋找關(guān)聯(lián)規(guī)則的事件數(shù)據(jù),也就是在特定時間和空間下發(fā)生的具體事件。

時間數(shù)據(jù)的理解

時間數(shù)據(jù)是指和時間序列相關(guān)的數(shù)據(jù),表述了目標事件隨時間的不同而發(fā)生的變化。現(xiàn)實中的數(shù)據(jù)常常與時間有關(guān),按時間順序取得的一系列觀測值就被稱為時間序列數(shù)據(jù),這類數(shù)據(jù)反映了某一事物、現(xiàn)象等隨時間的變化狀態(tài)或程度。如我國國內(nèi)生產(chǎn)總值從 1949 到 2009 的變化就是時間序列數(shù)據(jù)。對時間序列數(shù)據(jù)進行更深一步的分析和處理,對人類社會、科技和經(jīng)濟的發(fā)展有重大意義。目前時間序列的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的重要研究熱點之一。時間序列數(shù)據(jù)可作年度數(shù)據(jù)、季度數(shù)據(jù)、月度數(shù)據(jù)等細分,甚至以周、天、時、分、秒為周期,其中很有代表性的季度時間序列模型就是因為其數(shù)據(jù)具有四季一樣變化規(guī)律,雖然變化周期不盡相同,但是整體的變化趨勢都是按照周期變化的。

上述案例一中,該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況和人口統(tǒng)計信息就是時間序列數(shù)據(jù),找出該地區(qū)銀行分行從 1997 年到 2005 年之間隨時間的發(fā)展趨勢,從而預(yù)測下一年的分布情況是時空數(shù)據(jù)分析預(yù)測的重點之一。在案例二中,從 2009 年 1 月到 2010 年 3 月發(fā)生的犯罪事件也包含了時間數(shù)據(jù),我們需要進一步分析犯罪事件發(fā)生的時間周期(以月為周期,還是以周甚至以天為周期),從而更準確地挖掘出該犯罪事件的發(fā)生和時間的關(guān)聯(lián)關(guān)系。

空間數(shù)據(jù)的理解

空間數(shù)據(jù)是指用來表示空間實體的地理位置和分布特征等方面信息的數(shù)據(jù),表述了空間實體或目標事件隨地理位置的不同而發(fā)生的變化??臻g數(shù)據(jù)是數(shù)據(jù)的一種特殊類型,它是指帶有空間坐標的數(shù)據(jù),這類數(shù)據(jù)通常是地圖文件,用點、線、面以及實體等基本空間數(shù)據(jù)結(jié)構(gòu)來表示。一個地圖文件通常只包含一種類型的空間數(shù)據(jù)結(jié)構(gòu),比如面(代表國家或者地區(qū)),線(代表道路或者河流)或點(代表特定的地址)。如果想要比較復(fù)雜的地圖文件,其中包含多種空間數(shù)據(jù)結(jié)構(gòu)的話,通常需要多個地圖文件迭加來獲得。除了地圖信息,空間數(shù)據(jù)還包括地圖信息的背景數(shù)據(jù),用來描述地圖文件上的對象屬性。比如,一個地圖文件包含街道,那么就需要相應(yīng)的背景數(shù)據(jù)來描述了該街道的大小,名字或者一些分類信息(分行道,單行道,雙行道,禁止通行等)。

上述案例一中,亞特蘭大某地區(qū)的地理信息即地圖文件就是空間數(shù)據(jù),描述了該地區(qū)的拓撲結(jié)構(gòu),以多邊形來表示該地區(qū)的不同區(qū)域。同樣,在案例二中,斯波坎市的部分地圖信息就是空間數(shù)據(jù),描述了斯波坎市的空間地理分布情況,用多邊形表示斯波坎市的 10 個不同地區(qū),用線表示斯波坎市的 23 條主要街道。

事件數(shù)據(jù)的理解

事件數(shù)據(jù)是指事務(wù)性的數(shù)據(jù),表述了在某個時間區(qū)間某個地理范圍之內(nèi)所發(fā)生的事件。事件數(shù)據(jù)通常和時間數(shù)據(jù)相關(guān),甚至時間數(shù)據(jù)本身同時也是事件數(shù)據(jù),都是在某個時間序列上發(fā)生的一系列事件。不同的是,時間數(shù)據(jù)的關(guān)注點是目標事件發(fā)生的時間,或者說是時間序列數(shù)據(jù)中的時間變量,而事件數(shù)據(jù)的關(guān)注點是在某個時間序列上發(fā)生的事件。事件數(shù)據(jù)一般不會和地圖文件直接相關(guān),而是包含坐標值來關(guān)聯(lián)事件數(shù)據(jù)和地圖文件。事件數(shù)據(jù)的每一條記錄通常都指的是某個特定的人或事,并且包括和該人或事相關(guān)的其他信息,比如該人或事的具體地理位置。

上述案例一中,該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況就是事件數(shù)據(jù),描述銀行分行的地理位置,并包含坐標值和該地區(qū)的地圖文件相關(guān)聯(lián)。在案例二中,從 2009 年 1 月到 2010 年 3 月發(fā)生的犯罪事件同時也是事件數(shù)據(jù),描述不同的犯罪類型,吸毒、搶劫和車輛盜竊,分別發(fā)生在斯波坎市的不同區(qū)域。

時空數(shù)據(jù)預(yù)處理

時空數(shù)據(jù)結(jié)構(gòu)復(fù)雜且來源多樣,在充分理解了時間數(shù)據(jù),空間數(shù)據(jù)和事件數(shù)據(jù)的特征、屬性及他們之間的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,整合、清洗和轉(zhuǎn)換不同來源的時空數(shù)據(jù),使得他們符合特定時空數(shù)據(jù)挖掘算法的要求,是時空數(shù)據(jù)預(yù)處理面臨的重要問題。本節(jié)我們將結(jié)合 IBM SPSS Modeler 詳細介紹時空數(shù)據(jù)預(yù)處理的方法和步驟。

時間數(shù)據(jù)預(yù)處理

時間序列數(shù)據(jù)結(jié)構(gòu)復(fù)雜且來源多樣,如何將不同來源的時間序列數(shù)據(jù)合并并用于時空數(shù)據(jù)分析,是時空數(shù)據(jù)預(yù)處理面臨的首要問題。不同時間序列數(shù)據(jù)的時間起點及時間間隔都不盡相同,想要合并多個時間序列數(shù)據(jù)就必須要求每個時間序列數(shù)據(jù)具有相同的時間間隔,這就需要對各個時間變量的時間間隔進行構(gòu)建。在 IBM SPSS Modeler 中,時間間隔的構(gòu)建有兩種方法,匯總和填充。

匯總是一個經(jīng)常用于減小數(shù)據(jù)集大小的數(shù)據(jù)準備手段。執(zhí)行匯總之前,應(yīng)該花一些時間來清理數(shù)據(jù),尤其要關(guān)注缺失值。一旦完成匯總,或許會丟失可能有用的缺失值信息。我們可以選擇基于指定的匯總函數(shù)來匯總時間間隔較小的數(shù)據(jù),不同類型的數(shù)據(jù)可以用不同的匯總函數(shù)。連續(xù)性時間變量可以通過均值、合計、眾數(shù)、最小值和最大值來匯總,而離散型變量則可以通過眾數(shù)、第一個和最后一個匯總組中的非空值來匯總。

填充是用于替換字段值的一種方法,也可以用來將空白值或空值指定為特定值。我們也可以選擇基于指定的填充函數(shù)來替換字段值,同樣,不同類型的數(shù)據(jù)可以用不同的填充函數(shù)。連續(xù)性時間變量可以使用"最近點的平均值",即將要創(chuàng)建的時間周期之前的三個最近非空值的均值來替換或者填充新的字段值,而離散型時間變量則可以用將要創(chuàng)建的時間周期之前的最近非空值來替換或者填充新的字段值。

在將多來源的時間序列數(shù)據(jù)合并的過程中,我們需要根據(jù)指定的時間間隔來選擇匯總或者填充時間字段。例如,如果有以周和月為單位的混合數(shù)據(jù),則可以對周值進行匯總或"累計",以獲得均勻的月間隔。或者,也可以將間隔設(shè)置為周,并通過為所有缺失周插入空白值或使用指定的填充函數(shù)外推缺失值來填充序列。

空間數(shù)據(jù)預(yù)處理

我們已經(jīng)知道,空間數(shù)據(jù)是數(shù)據(jù)的一種特殊類型,它是指帶有空間坐標的數(shù)據(jù),用點、線、面以及實體等基本空間數(shù)據(jù)結(jié)構(gòu)來表示。但是空間坐標有不同的表達方式,有些空間數(shù)據(jù)的坐標是多個單維坐標形式,如用三個單獨的字段 x, y, z 分別表示三維坐標; 有些空間數(shù)據(jù)的坐標是一個多維坐標形式,如用一個列表[x, y, z]來表示三維坐標。既然涉及坐標,就必然會關(guān)系到坐標系,而不同空間數(shù)據(jù)的坐標系往往不同。另外,和時間數(shù)據(jù)一樣,空間數(shù)據(jù)來源多樣,每個空間數(shù)據(jù)的基本數(shù)據(jù)結(jié)構(gòu)都不盡相同,如何關(guān)聯(lián)多種類型的數(shù)據(jù)結(jié)構(gòu)同樣是空間數(shù)據(jù)預(yù)處理面臨的重要問題。

首先來看多個單維坐標字段和一個多維坐標字段之間的轉(zhuǎn)換,這個過程通常比較簡單。在 IBM SPSS Modeler 中,這個過程只需要組合多個單維坐標字段即可實現(xiàn),例如,直接用組合單獨的坐標字段 x, y, z,返回的派生字段即為列表[x, y, z]。

任何一個空間數(shù)據(jù),不管是地圖,坐標還是經(jīng)緯度值,都會關(guān)聯(lián)一個坐標系。坐標系定義了坐標值的原點,單位,正方向等,是坐標值的參照系。坐標系的種類很多,大體可以歸納為兩大類,地理坐標系和投影坐標系。地理坐標系,是球面坐標系統(tǒng),以經(jīng)緯度為地圖的存儲單位的。投影坐標系,是平面坐標系統(tǒng),其地圖單位通常為米。要得到投影坐標就必須得有一個"拿來"投影的球面坐標,然后才能使用算法去投影,即每一個投影坐標系統(tǒng)都必須要求有地理坐標系參數(shù)。坐標轉(zhuǎn)換是空間實體的位置描述,是從一種坐標系統(tǒng)變換到另一種坐標系統(tǒng)的過程,通過建立兩個坐標系統(tǒng)之間一一對應(yīng)關(guān)系來實現(xiàn)。在 IBM SPSS Modeler 中,我們可以選擇一個或者多個坐標轉(zhuǎn)換的地理字段,指定要轉(zhuǎn)換的坐標系,從而實現(xiàn)多個地理字段統(tǒng)一坐標系的目的。

如上所述,一個空間數(shù)據(jù)或地圖文件通常只包含一種類型的空間數(shù)據(jù)結(jié)構(gòu),如果想要比較復(fù)雜的地圖文件,其中包含多種空間數(shù)據(jù)結(jié)構(gòu)的話,通常需要多個地圖文件迭加來獲得。比如,我們有面圖表述某地區(qū)的不同區(qū)域和線圖表述該地區(qū)的河流街道,那么如何得到不同的河流街道和各個地區(qū)之間的位置關(guān)系呢?在 IBM SPSS Modeler 中,我們可以通過位置函數(shù)來獲得不同類型的空間數(shù)據(jù)結(jié)構(gòu)之間的位置關(guān)系。例如,用 close_to()來確定某條河流是否靠近某個地區(qū),用 distance()來獲得兩個地區(qū)或者兩條街道之間的距離等。

事件數(shù)據(jù)預(yù)處理

事件數(shù)據(jù)是時空數(shù)據(jù)挖掘的主題,它的每一條記錄都是特定的人或事,并且包括該人或事的相關(guān)信息,特別是發(fā)生的地理位置。事件數(shù)據(jù)的預(yù)處理通常是指和時間數(shù)據(jù)或者空間數(shù)據(jù)的整合,以便獲得最終可以直接應(yīng)用于時空數(shù)據(jù)挖掘算法的數(shù)據(jù)。具體內(nèi)容詳見下節(jié)時空數(shù)據(jù)的融合。

時空數(shù)據(jù)的融合及展示

上文我們已經(jīng)了解了時空數(shù)據(jù)來源多樣且結(jié)構(gòu)復(fù)雜,不管是時間數(shù)據(jù)、空間數(shù)據(jù)還是事件數(shù)據(jù)都有其自身的特征和屬性,如何融合各種數(shù)據(jù)并把結(jié)果展示出來對時空數(shù)據(jù)挖掘至關(guān)重要。

時空數(shù)據(jù)的融合

時空數(shù)據(jù)的融合通常是通過合并時間數(shù)據(jù)、空間數(shù)據(jù)和事件數(shù)據(jù)來完成的。數(shù)據(jù)合并的方法很多,可以按記錄順序合并,可以通過多個數(shù)據(jù)共有的關(guān)鍵字來合并,還可以根據(jù)自定義的條件進行合并。按關(guān)鍵字或者自定義條件合并又可分為內(nèi)連接,全外連接,部分外連接等。

事件數(shù)據(jù)和時間數(shù)據(jù)的融合可以通過關(guān)鍵字,譬如區(qū)域 ID 號,郵政編碼,事件發(fā)生時間等來實現(xiàn)。例如,在上述案例一中,我們可以設(shè)置區(qū)域 ID 號或者時間字段為關(guān)鍵字來融合從 1997 年到 2005 年的銀行分行分布數(shù)據(jù)和人口統(tǒng)計數(shù)據(jù)。

由于涉及空間地理位置,事件數(shù)據(jù)和空間數(shù)據(jù)的融合通常按照事件數(shù)據(jù)進行左外連接。在 IBM SPSS Modeler 中,這種左外連接還結(jié)合位置函數(shù)來獲得事件發(fā)生的地點和空間數(shù)據(jù)結(jié)構(gòu)之間的位置關(guān)系。例如,在上述案例二中,我們要融合犯罪事件文件和斯波坎市的地圖文件,可以選擇犯罪事件為主數(shù)據(jù)對犯罪事件和地圖文件進行左外連接,用位置函數(shù) close_to()來查找某種犯罪事件發(fā)生的地點和斯波坎市街道在某個特定范圍內(nèi)的臨近關(guān)系,或者用位置函數(shù) within()來定位某種犯罪事件是否發(fā)生在某個特定區(qū)域。

時空數(shù)據(jù)的展示

由于空間數(shù)據(jù)是一種特殊的數(shù)據(jù)類型,使得時空數(shù)據(jù)說起來比較抽象,本小節(jié)我們就將時空數(shù)據(jù)以圖形方式給出一個簡單的展示。

我們已經(jīng)知道,時空數(shù)據(jù)首先是基于一張地圖,包括不同的空間數(shù)據(jù)結(jié)構(gòu),比如多邊形(面),線,點等, 通常以.shp 格式存在。簡單的理解,單獨的空間數(shù)據(jù)即使一張某地區(qū)的地圖。例如,在上述案例一中的亞特蘭大某地區(qū)的地圖用 IBM SPSS Modeler 中的圖形文件如圖 1 所示,其中多邊形表示不同區(qū)域。

圖 1:亞特蘭大某地區(qū)地圖

如果有多個地圖文件,并且經(jīng)過預(yù)處理之后,各個地圖文件有相同的坐標系,則可迭加輸入從而得到多層次的地圖文件,比如多邊形上貫穿線串表示道路,河流等。如果已經(jīng)融合了事件數(shù)據(jù),我們還可以設(shè)置不同的符號和顏色分別表示不同的事件,比如在上述案例二中,用三角形表示吸毒,用圓圈表示搶劫,用方形表示車輛盜竊,如圖 2 所示。

如果有多個地圖文件,并且經(jīng)過預(yù)處理之后,各個地圖文件有相同的坐標系,則可迭加輸入從而得到多層次的地圖文件,比如多邊形上貫穿線串表示道路,河流等。如果已經(jīng)融合了事件數(shù)據(jù),我們還可以設(shè)置不同的符號和顏色分別表示不同的事件,比如在上述案例二中,用三角形表示吸毒,用圓圈表示搶劫,用方形表示車輛盜竊,如圖 2 所示。

圖 2:斯波坎市犯罪事件地圖

結(jié)束語

  結(jié)束語

大數(shù)據(jù)時代下,隨著數(shù)據(jù)收集效率的不斷提高和時空數(shù)據(jù)挖掘的快速發(fā)展,很多不同來源的商業(yè)數(shù)據(jù)都包含有時間和空間信息,比如設(shè)備,建筑,機構(gòu)等的管理,能量的產(chǎn)生,分布及預(yù)測等。如何結(jié)合時空數(shù)據(jù)和其他商業(yè)數(shù)據(jù),并且通過對時間和空間屬性的觀測分析獲得決定性的認知從而優(yōu)化決策就顯得至關(guān)重要。本文通過介紹面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘的重要性及面臨的挑戰(zhàn),詳細描述了運用數(shù)據(jù)挖掘工具 IBM SPSS Modeler 對時空數(shù)據(jù)的理解、預(yù)處理,融合及展示,為下一步進行時空數(shù)據(jù)的建模預(yù)測以及關(guān)聯(lián)規(guī)則的挖掘奠定了基礎(chǔ)。

第 2 部分

面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘現(xiàn)狀

隨著傳感器網(wǎng)絡(luò)、手持移動設(shè)備等的普遍應(yīng)用,遙感衛(wèi)星和地理信息系統(tǒng)等的顯著進步,人們獲取了大量地理科學數(shù)據(jù)。這些數(shù)據(jù)內(nèi)嵌于連續(xù)空間,并且隨時間動態(tài)變化,具有很大程度的特殊性和復(fù)雜性。實際上,很多應(yīng)用領(lǐng)域,例如交通運輸、氣象研究、地震救援、犯罪分析、公共衛(wèi)生與醫(yī)療等,在問題求解過程中需要同時考慮時間和空間兩方面因素。而隨著信息技術(shù)的發(fā)展,人們已經(jīng)不滿足于單純的時空數(shù)據(jù)的存儲和展現(xiàn),而是需要更先進的手段幫助理解時空數(shù)據(jù)的變化。如何從這些復(fù)雜、海量、高維、高噪聲和非線性的時空數(shù)據(jù)中挖掘出隱含的時空模式,并對這些模式進行分析從而提取出有價值的信息并用于商業(yè)活動是對時空數(shù)據(jù)挖掘及分析技術(shù)的一項極大的挑戰(zhàn)。

IBM SPSS Modeler 是參照行業(yè)標準 CRISP-DM 模型設(shè)計而成的數(shù)據(jù)挖掘工具,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個數(shù)據(jù)挖掘過程。通過結(jié)合時空數(shù)據(jù)和其他商業(yè)數(shù)據(jù),并且運用數(shù)據(jù)挖掘工具 IBM SPSS Modeler 對時間和空間屬性進行觀測分析,建立預(yù)測性模型,進而獲得決定性的認知,并將其應(yīng)用于商業(yè)活動,從而改進決策過程。

面向大數(shù)據(jù)的時空預(yù)測簡介

面向大數(shù)據(jù)的時空預(yù)測主要是基于時空對象的特征構(gòu)建預(yù)測模型進而預(yù)測時空對象在未來特定時間范圍內(nèi)特定空間位置下的行為或者狀態(tài)。

時空預(yù)測的分類

根據(jù)時空對象的不同,時空預(yù)測有不同的分類。面向時空數(shù)據(jù)的位置和軌跡預(yù)測、密度和事件預(yù)測、結(jié)合空間的時間序列預(yù)測等研究都具有重要的應(yīng)用前景。

位置和軌跡預(yù)測

面向時空數(shù)據(jù)的位置預(yù)測主要是基于時空對象的特征構(gòu)建預(yù)測模型來預(yù)測時空對象所在的具體空間位置。對于實時物流、實時交通管理、基于位置的服務(wù)和 GPS 導航等涉及時空數(shù)據(jù)的應(yīng)用而言,預(yù)測單個或者一組對象未來的位置或目的地是至關(guān)重要的,它能使系統(tǒng)在延誤的情況下采取必要的補救措施,避免擁堵,提高效率。

除了位置預(yù)測之外,面向時空數(shù)據(jù)的軌跡預(yù)測可以推測移動對象的出行規(guī)律。例如,社交網(wǎng)絡(luò)應(yīng)用借助 GPS 設(shè)備記錄用戶軌跡數(shù)據(jù),通過"簽到"應(yīng)用(如微信、微博等)分享位置信息。分析這些共享的 GPS 軌跡數(shù)據(jù),可以為用戶推薦感興趣的旅游景點和游覽次序。

密度、事件預(yù)測

某個區(qū)域的對象密度定義為在給定時間點該區(qū)域內(nèi)對象數(shù)與該區(qū)域大小之比。這是一些對象隨時間變化而呈現(xiàn)出的一個全局特征。面向時空數(shù)據(jù)的密度預(yù)測主要應(yīng)用于實時交通管理,會對及時改善交通擁堵帶來很大助益。例如,交通管理系統(tǒng)通過密度預(yù)測可以識別出道路中的密集區(qū)域,從而幫助用戶避免陷入交通阻塞,并采取有效措施及時緩解交通擁堵。此外,面向時空數(shù)據(jù)的事件預(yù)測可以根據(jù)歷史數(shù)據(jù)(時間序列),結(jié)合地理區(qū)域密度估計(發(fā)現(xiàn)重要特征和時空地點)來預(yù)測給定時間范圍和空間位置的概率密度,譬如基于過去犯罪事件發(fā)生的地點、時間和城市經(jīng)濟等特征預(yù)測給定區(qū)域和時間段內(nèi)犯罪發(fā)生的概率,進而檢測犯罪發(fā)展趨勢,有效降低城市犯罪率。

結(jié)合空間的時間序列預(yù)測

結(jié)合空間的時間序列預(yù)測是從時間的角度來考慮時空數(shù)據(jù)。與傳統(tǒng)的時間序列不同的是,與空間有關(guān)的時間序列彼此不是獨立的,而是和空間相關(guān)的。例如,可以首先構(gòu)造時間序列模型以獲取每個獨立空間區(qū)域的時間特性,然后構(gòu)造神經(jīng)網(wǎng)絡(luò)模型擬合隱含的空間相關(guān)性,最后基于統(tǒng)計回歸結(jié)合時間和空間預(yù)測獲得綜合預(yù)測。

時空預(yù)測的理論框架

如上所述,時空預(yù)測根據(jù)時空對象的不同有不同的分類方法,本文我們重點介紹 IBM SPSS Modeler 中對于包含時間和空間兩種屬性的數(shù)據(jù)的建模與預(yù)測。其提供了一個綜合時間和空間屬性的有效的手段,充分利用各種數(shù)據(jù)序列的特征,將時間、空間及時空自回歸預(yù)測方法有效地結(jié)合,并在預(yù)測同時考慮了研究對象之間的空間影響關(guān)系,從而提高了預(yù)測的精確度。

時空數(shù)據(jù)建模

時空預(yù)測模型實質(zhì)上是一個基于線性回歸的擴展模型,其原理可以用如下公式表示:

其中, 系數(shù)β是自變量的系數(shù),表示自變量對于目標變量的影響程度;Z作為線性擬合的殘差,是目標變量變化中用自變量線性組合無法表示的部分,可用來在自回歸(Autoregressive,AR)模型中捕捉時間自相關(guān)性,進而用于描述空間的相關(guān)性。我們可以通過圖 1 所示的流程圖來具體討論這一過程。

圖 1. 時空數(shù)據(jù)建模流程圖

Job0:準備工作

  Job0:準備工作

針對時空建模的復(fù)雜性,適當?shù)臄?shù)據(jù)驗證和缺失值篩選將有助于模型的構(gòu)建。通過檢測,包含缺失值或無效值百分比較高的一些樣本位置將從分析中刪除,而缺失值或無效值百分比較低的樣本位置則被留下來,后期建模過程中將對其進行特殊編碼處理,以盡可能多保留數(shù)據(jù)信息。

Job1:擬合線性回歸模型

回歸模型采用標準的線性回歸模型(包括或不包括截距),但由于數(shù)據(jù)的時空相關(guān)關(guān)系,其殘差會形成一個零均值的非獨立的時空相關(guān)隨機過程。線性回歸的系數(shù),可衡量自變量對目標變量的影響程度,較大的系數(shù)對應(yīng)的自變量表明其單位變化會產(chǎn)生較大的目標變量變化。

Job2:擬合時間自回歸模型

自回歸模型使用指定的自回歸階數(shù),即指定之前若干個時刻的值來預(yù)測當前值。自回歸的系數(shù)可用與衡量過往時刻的殘差對當前值的影響。自回歸模型同樣包含殘差,由于其中的時間自相關(guān)因素已被移除,自回歸模型的殘差在時間上是相互獨立的。

Job3:計算時間自回歸模型殘差并建立空間協(xié)方差模型

基于地理空間的協(xié)方差模型建立在時間自回歸模型殘差的基礎(chǔ)上,空間協(xié)方差模型有兩種實現(xiàn)方法:參數(shù)法和非參數(shù)法。參數(shù)法具有更精簡的數(shù)學表達式和更好的模型推廣能力,所以在假設(shè)所給數(shù)據(jù)能夠進行參數(shù)化建模的情況下,提供了兩個參數(shù)檢驗方法來確定模型的準確性。其一是檢測是否空間中存在隨著距離而變化的衰減,其二檢測空間方差在給定區(qū)域具有普遍性(方差同質(zhì)性檢驗)。如果不滿足參數(shù)化模型的假設(shè),將會構(gòu)造非參數(shù)化的模型,利用空間殘差所形成空間關(guān)系矩陣來描述數(shù)據(jù)中的空間關(guān)系。

Job4:修正時間自回歸模型

空間協(xié)方差量化表達了數(shù)據(jù)的空間關(guān)系,從而可以從之前線性回歸的殘差中移除空間關(guān)系的影響,進而能夠修正時間自回歸模型,更新自回歸模型的參數(shù),獲得更加準確的時間自回歸關(guān)系的描述。

Job5:修正線性回歸模型

基于準確 的空間關(guān)系和時間自相關(guān)關(guān)系的描述,可從原始的數(shù)據(jù)中去除時間和空間關(guān)系的影響,從而能夠修正線性回歸模型的參數(shù),更加準確的描述出自變量對目標變量的影響。

Job6:計算測定后的統(tǒng)計值并保存結(jié)果

上述步驟已經(jīng)完成了模型的估計過程,獲得的模型可生成目標變量的估計值,與觀測值相比較,能夠評價所建模型的質(zhì)量。同時通過一些參數(shù)檢驗的方法,可以評價自變量,時間自回歸系數(shù)的重要性等一些基于模型的評價指標。

時空數(shù)據(jù)預(yù)測

時空數(shù)據(jù)預(yù)測是基于時空數(shù)據(jù)模型的一個假設(shè)情況分析(what-if 分析),可以預(yù)測未來一段時間在分析范圍中任何地理位置的目標值。我們可以通過圖 2 所示的流程圖來具體討論這一過程。

圖 2. 時空數(shù)據(jù)預(yù)測流程圖 參考資源

Step1:準備時空預(yù)測輸入數(shù)據(jù)

  Step1:準備時空預(yù)測輸入數(shù)據(jù)

想要獲得未來時間的目標預(yù)測值,首先需要有和時空數(shù)據(jù)建模的輸入數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的未來時刻的自變量數(shù)據(jù)。未來時刻的自變量數(shù)據(jù)可以保持已知的最終數(shù)據(jù)不變,或者是人為修改過的用于假設(shè)分析的數(shù)據(jù)。

Step2:構(gòu)建空間協(xié)方差矩陣來捕捉預(yù)測地理位置和初始地理位置之間的空間

相關(guān)性

預(yù)測數(shù)據(jù)中的地理位置和初始數(shù)據(jù)中的地理位置可以不同,也可以預(yù)測數(shù)據(jù)中一些地理位置和初始地理位置相同,或者預(yù)測地理位置是初始地理位置的子集。

Step3:對初始位置的回歸殘差進行空間插值得到預(yù)測的地理位置

利用第 2 步構(gòu)建的空間協(xié)方差矩陣對初始地理位置經(jīng)過轉(zhuǎn)換后的回歸殘差進行插補,從而得到預(yù)測的地理位置。

Step4:預(yù)測未來時間的線性回歸殘差

預(yù)測未來時間的回歸殘差是在時間點 m+1, m+2, ... m+H 上逐步迭代進行, 其中, m 是建模的最終時間點,H 是需要預(yù)測的未來時間點的個數(shù)。

Step5:計算未來時間點的目標值

未來時間點的目標值需要通過回歸模型,第 4 步中計算得到的時間點 m+1, m+2, ... m+H 上的回歸殘差和在未來時間點和新的地理位置上的預(yù)測輸入數(shù)據(jù)值來計算。

Step6:計算未來時間點目標值的置信區(qū)間

基于高斯過程和已知模型每一部分的方差情況,可逐級推出最終預(yù)測目標值的置信區(qū)間。此步驟過于復(fù)雜,本文不作詳述。

Step7:預(yù)測結(jié)果輸出

最終得到的預(yù)測結(jié)果包括在未來時間指定位置的目標值,以及預(yù)測值置信區(qū)間的上下限。

時空預(yù)測應(yīng)用實例

在充分了解時空數(shù)據(jù)建模及預(yù)測理論結(jié)構(gòu)的基礎(chǔ)上,我們來描述該時空預(yù)測模型在 IBM SPSS Modeler 中的具體實現(xiàn),并結(jié)合應(yīng)用實例展示如何應(yīng)用時空數(shù)據(jù)模型的假設(shè)情況分析(what-if 分析)實現(xiàn)對未來任何時間任何地點目標值的準確預(yù)測。

時空預(yù)測模型描述

在 IBM SPSS Modeler 中,時空預(yù)測模型分析使用包含位置數(shù)據(jù)、預(yù)測輸入字段(預(yù)測變量)、時間字段和目標字段的數(shù)據(jù),如圖 3 中時空預(yù)測模型字段選項的參數(shù)所示。 時空預(yù)測模型的輸入數(shù)據(jù)必須是經(jīng)過時空數(shù)據(jù)預(yù)處理,融合了時間序列和形狀數(shù)據(jù),同時包含時間變量,空間位置變量及其他相關(guān)變量的數(shù)據(jù)。在該數(shù)據(jù)中,每個位置在數(shù)據(jù)中都有許多行,這些行表示每個預(yù)測變量在每個測量時間的值。 分析數(shù)據(jù)后,可以使用該數(shù)據(jù)來預(yù)測所使用的形狀數(shù)據(jù)(.shp 文件)內(nèi)任意位置處的目標值。 并且,還可以預(yù)測何時能夠獲知未來時間點的輸入數(shù)據(jù)。

圖 3.時空預(yù)測模型-字段選項

干貨 面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘

這里,目標字段是將要預(yù)測的目標變量。位置字段是一個測量級別為"地理空間"的字段,可以是點、線、多邊形(面)、多點、多線、多面等位置類型。形狀數(shù)據(jù)通常包含一個表明層特征的名稱的字段,例如,這可能是省/自治區(qū)/直轄市或者國家或地區(qū)的名稱。 使用此字段可以將名稱或標簽與位置相關(guān)聯(lián),方法是選擇一個分類字段來標注輸出中的所選位置字段,即位置標簽字段。時間字段是要在預(yù)測中使用的時間變量,只能選擇測量級別為"連續(xù)"且存儲類型為時間、日期、時間戳記或整數(shù)的字段。預(yù)測變量是預(yù)測輸入字段,只能選擇測量級別為"連續(xù)"的字段。

設(shè)置好時空預(yù)測模型所需的變量后,我們就該考慮時空預(yù)測模型的構(gòu)建了。在 IBM SPSS Modeler 中,時空預(yù)測模型的構(gòu)建選項還分為時間間隔、基本、高級和輸出等子項,分別實現(xiàn)時空數(shù)據(jù)建模中的不同功能。

在可以構(gòu)建時空預(yù)測模型之前,需要進行數(shù)據(jù)準備以便將時間字段轉(zhuǎn)換為索引;要使得能夠進行這種轉(zhuǎn)換,時間字段中的記錄之間必須有固定的區(qū)間。如果數(shù)據(jù)尚未包含此信息,我們就可以使用"時間間隔"子項中的選項來設(shè)置此區(qū)間,然后才能進行時空數(shù)據(jù)建模。"時間間隔"選項如圖 4 所示。

圖 4. 時空預(yù)測模型-時間間隔選項

干貨 面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘

根據(jù)輸入數(shù)據(jù)中時間字段的特征選擇或者轉(zhuǎn)換為合適的時間間隔是時空數(shù)據(jù)建模的必要條件。這里,時間間隔可以以周期、年、季度、月、周、天、時、分、秒等一系列為單位?;谒x的時間間隔,還有一系列與之相關(guān)的選項,比如,時間間隔為年或季度時的開始月份,時間間隔為周時每周的第一天和每周的天數(shù),時間間隔為小時時每天的小時數(shù)和一天開始的時間等。如果輸入數(shù)據(jù)已包含正確的時間間隔信息,并且不需要進行轉(zhuǎn)換,選中"數(shù)據(jù)匹配指定時間間隔設(shè)置" 復(fù)選框。 選中此框后,"匯總"區(qū)域中的設(shè)置將不可用。反之,如果輸入數(shù)據(jù)中的時間字段需要轉(zhuǎn)換為特定區(qū)間,取消選中"數(shù)據(jù)匹配指定時間間隔設(shè)置"復(fù)選框,并指定用于匯總的字段以便與指定區(qū)間匹配的選項。 例如,如果有以周和月為單位的混合數(shù)據(jù),那么可以對周值進行匯總或累計,以獲得均勻的月間隔。所用的匯總方法可以從"缺省設(shè)置"下拉框中選擇并應(yīng)用于未逐個指定的所有連續(xù)字段。如果希望對于特定字段進行定制設(shè)置,即將特定匯總函數(shù)應(yīng)用于個別字段,則在"指定字段的定制設(shè)置"表中選擇字段并選擇匯總方法。

實際上,時間間隔的設(shè)置與轉(zhuǎn)換是時空數(shù)據(jù)預(yù)處理的一部分,在 IBM SPSS Modeler 中,為方便使用,內(nèi)嵌于時空數(shù)據(jù)建模中。時空數(shù)據(jù)建模的構(gòu)建實質(zhì)是通過基本構(gòu)建選項和高級構(gòu)建選項來設(shè)置的,如圖 5 和圖 6 所示。

圖 5. 時空預(yù)測模型-基本構(gòu)建選項

干貨 面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘

我們可以在基本構(gòu)建選項里主要設(shè)置最大自回歸階數(shù)和空間協(xié)方差矩陣的估計方法。自回歸階指定使用哪些先前值來預(yù)測當前值,使用"最大自回歸標志"選項可以指定用于計算新值的先前記錄數(shù)。空間協(xié)方差的估計方法可以選擇參數(shù)或非參數(shù),其中參數(shù)方法又可以從三種模型類型中進行選擇:高斯、指數(shù)和冪指。

圖 6. 時空預(yù)測模型-高級構(gòu)建選項

干貨 面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘

時空數(shù)據(jù)建模的高級構(gòu)建選項主要用來對模型構(gòu)建過程進行微調(diào)。其中,"缺失值的最大百分比"指定模型中可以包括的包含缺失值的記錄所占的最大百分比。"模型構(gòu)建中假設(shè)測試的顯著性水平"指定用于時空數(shù)據(jù)模型估計的所有檢驗(包括兩項擬合優(yōu)度檢驗、效應(yīng) F 檢驗和系數(shù) T 檢驗)的顯著性水平值,此級別可以是 0 與 1 之間的任何值,并以 0.01 為增量變動。

最后是時空數(shù)據(jù)模型的輸出選項,主要用于在構(gòu)建模型之前,使用此頁面中的選項來選擇要包括在模型輸出查看器中的輸出,如圖 7 所示。

圖 7.時空預(yù)測模型-輸出選項

如圖所示,時空數(shù)據(jù)模型的輸出分為模型信息、評估、和解釋三部分。其中,模型信息包括模型規(guī)范和時間信息摘要;評估包括模型質(zhì)量和均值結(jié)構(gòu)模型中的效應(yīng)檢驗;解釋包括平均結(jié)構(gòu)模型系數(shù)、自回歸系數(shù)、測試空間衰減、參數(shù)空間協(xié)方差模型參數(shù)散點圖、相關(guān)性熱圖、相關(guān)性圖和位置聚類。所有這些圖或表均從不同角度展現(xiàn)時空數(shù)據(jù)模型,以不同形式向用戶詮釋時空數(shù)據(jù)模型的意義。

如圖所示,時空數(shù)據(jù)模型的輸出分為模型信息、評估、和解釋三部分。其中,模型信息包括模型規(guī)范和時間信息摘要;評估包括模型質(zhì)量和均值結(jié)構(gòu)模型中的效應(yīng)檢驗;解釋包括平均結(jié)構(gòu)模型系數(shù)、自回歸系數(shù)、測試空間衰減、參數(shù)空間協(xié)方差模型參數(shù)散點圖、相關(guān)性熱圖、相關(guān)性圖和位置聚類。所有這些圖或表均從不同角度展現(xiàn)時空數(shù)據(jù)模型,以不同形式向用戶詮釋時空數(shù)據(jù)模型的意義。

時空預(yù)測應(yīng)用實例

時空預(yù)測模型有許多潛在的應(yīng)用,例如緊急管理建筑物或設(shè)施、對機械服務(wù)工程師進行績效分析和預(yù)測或者進行公共交通規(guī)劃。 在這些應(yīng)用中,通常要對時間和空間進行能耗等測量。 可能與記錄這些測量值相關(guān)的問題包括哪些因子影響未來的觀測值、如何實現(xiàn)所需的變化或者如何更好地管理系統(tǒng)? 為了回答這些問題,我們可以在不同位置使用能夠預(yù)測未來值的統(tǒng)計技術(shù),并可以顯式地對可調(diào)因子進行建模以執(zhí)行假設(shè)情況分析。

本節(jié)我們將通過應(yīng)用時空數(shù)據(jù)建模以及執(zhí)行假設(shè)情況分析來實現(xiàn)數(shù)據(jù)中心的能量管理,避免使用過多的制冷能量把數(shù)據(jù)中心的熱量控制在可接受的標準范圍內(nèi)。一個典型的數(shù)據(jù)中心,壓力通風系統(tǒng)(plenum)通過打孔瓦(perforated tiles)供應(yīng)冷空氣,冷空氣通過通風口(inlet)冷卻服務(wù)器溫度。而服務(wù)器散發(fā)熱空氣并傳給空調(diào)機組(ACU),熱空氣在空調(diào)機組里被冷卻并重新交換到壓力通風系統(tǒng),依此循環(huán)。為了更好地實現(xiàn)數(shù)據(jù)中心的能量管理,數(shù)據(jù)中心還需部署實時熱量傳感器(thermal sensors)來監(jiān)控能量使用。但是,熱量傳感器不可能存在數(shù)據(jù)中心的任何一個位置,因而需要對沒有部署熱量傳感器的位置進行預(yù)測。因此,我們將建立一個時空數(shù)據(jù)預(yù)測模型來預(yù)測整個數(shù)據(jù)中心在未來時間的溫度,并結(jié)合影響數(shù)據(jù)中心溫度的其他相關(guān)因素執(zhí)行假設(shè)情況分析,從而對如何改善數(shù)據(jù)中心的能量使用效率提出建設(shè)性意見。

數(shù)據(jù)收集和預(yù)處理

為了進一步理解并調(diào)控數(shù)據(jù)中心的熱量管理系統(tǒng),數(shù)據(jù)中心在有限的位置布置熱量傳感器,通過傳感器收集不同位置的實時溫度。另外,數(shù)據(jù)中心的熱量傳感器、空調(diào)機組和打孔瓦的物理參數(shù),比如每個熱量傳感器的坐標位置,每個空調(diào)機組的坐標位置和長寬高(三維物體)以及打孔瓦的坐標和長寬(二維物體)等信息也會相應(yīng)地影響數(shù)據(jù)中心不同位置的空氣流,如圖 8 所示。

圖 8. 數(shù)據(jù)中心結(jié)構(gòu)圖

這些數(shù)據(jù)不能直接應(yīng)用于時空數(shù)據(jù)預(yù)測建模,必須要先進行數(shù)據(jù)預(yù)處理,把溫度數(shù)據(jù)、各個物體的位置數(shù)據(jù)等進行融合,從而得到一個包含空間地理位置字段,時間字段,預(yù)測輸入字段和將要預(yù)測的目標字段的一個表格式的輸入數(shù)據(jù)。

這些數(shù)據(jù)不能直接應(yīng)用于時空數(shù)據(jù)預(yù)測建模,必須要先進行數(shù)據(jù)預(yù)處理,把溫度數(shù)據(jù)、各個物體的位置數(shù)據(jù)等進行融合,從而得到一個包含空間地理位置字段,時間字段,預(yù)測輸入字段和將要預(yù)測的目標字段的一個表格式的輸入數(shù)據(jù)。

時空數(shù)據(jù)建模

經(jīng)過數(shù)據(jù)預(yù)處理,我們得到一個包括時空數(shù)據(jù)預(yù)測建模所需字段的標準輸入數(shù)據(jù)。然后我們將選擇并設(shè)置時空數(shù)據(jù)預(yù)測模型的不同參數(shù)來建立時空數(shù)據(jù)預(yù)測模型。很顯然,這里的目標字段為數(shù)據(jù)中心的溫度,空間位置字段為溫度被監(jiān)控的位置,即熱量傳感器的坐標位置,時間字段為溫度被監(jiān)控的一系列時間點,預(yù)測數(shù)據(jù)字段則為其他相關(guān)因素,包括數(shù)據(jù)中心的空氣流、空調(diào)機組的長寬高等,如圖 9 所示。

圖 9. 數(shù)據(jù)預(yù)處理后的輸入數(shù)據(jù)結(jié)構(gòu)

接下來根據(jù)數(shù)據(jù)中心溫度的監(jiān)控時間點來設(shè)置時間間隔選項,如果溫度是每小時收集一次,那么時間間隔應(yīng)設(shè)為小時并設(shè)置起始點;如果溫度的收集頻率是一天一次,則應(yīng)設(shè)時間間隔為天。并且根據(jù)輸入數(shù)據(jù)的時間變量的特征決定是否需要對數(shù)據(jù)進行轉(zhuǎn)換從而使得數(shù)據(jù)與指定的時間間隔設(shè)置匹配。

接下來根據(jù)數(shù)據(jù)中心溫度的監(jiān)控時間點來設(shè)置時間間隔選項,如果溫度是每小時收集一次,那么時間間隔應(yīng)設(shè)為小時并設(shè)置起始點;如果溫度的收集頻率是一天一次,則應(yīng)設(shè)時間間隔為天。并且根據(jù)輸入數(shù)據(jù)的時間變量的特征決定是否需要對數(shù)據(jù)進行轉(zhuǎn)換從而使得數(shù)據(jù)與指定的時間間隔設(shè)置匹配。

然后根據(jù)需求設(shè)置最大自回歸階數(shù)指定使用哪些先前值來預(yù)測未來值,并且指定計算空間協(xié)方差的估計方法。為了最大程度的提高對時空數(shù)據(jù)預(yù)測模型的預(yù)測準確性,還可以通過設(shè)置"缺失值的最大百分比"和"模型構(gòu)建中用于假設(shè)檢驗的顯著性水平" 對模型構(gòu)建過程進行微調(diào)。

最后構(gòu)建時空數(shù)據(jù)模型,從而實現(xiàn)后續(xù)的模型輸出和假設(shè)檢驗分析。

時空數(shù)據(jù)預(yù)測

想要獲得對目標值的預(yù)測,即要了解下一個時間監(jiān)測點或者將來某個時間點數(shù)據(jù)中心不同位置的溫度值,需要有和時空數(shù)據(jù)建模的輸入數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的預(yù)測輸入數(shù)據(jù)。其中,時間為將要預(yù)測溫度值的時間點,空間位置為將要預(yù)測溫度值的位置點,其他相關(guān)輸入變量均為每個將要預(yù)測溫度的位置的相應(yīng)未來值。有了預(yù)測輸入變量,輸入時空數(shù)據(jù)模型即可得到數(shù)據(jù)中心在指定時間指定位置的溫度值,同時還可獲得該預(yù)測值的錯誤方差及預(yù)測置信度的上下限。

時空預(yù)測結(jié)果展示

時空數(shù)據(jù)預(yù)測模型的顯著性不僅在于它可以同時處理時間和空間兩種屬性并對未來任何時間任何地點的目標值進行預(yù)測,更在于可以通過時空預(yù)測模型進行假設(shè)檢驗分析從而改善決策。

在上述數(shù)據(jù)中心能量管理的應(yīng)用實例中,時空數(shù)據(jù)模型可以通過熱圖來可視化在指定時間指定位置的目標值,如圖 10 所示。

圖 10. 數(shù)據(jù)中心溫度預(yù)測熱圖

干貨 面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘

在時空預(yù)測過程中,首先假定在下一個時間監(jiān)測點所有其他的參數(shù)都保持現(xiàn)有值,即空調(diào)機組的數(shù)目和位置,熱量傳感器的位置,空氣流等保持不變的情況下的溫度情況,得到如圖 11 熱圖所示的結(jié)果。從圖中可以看出,在現(xiàn)有制冷持續(xù)的情況下,部分區(qū)域會出現(xiàn)溫度過冷現(xiàn)象?;谠摷僭O(shè)檢驗分析的結(jié)果,為了節(jié)約能量,我們可以把空調(diào)機組的制冷設(shè)置溫度升高 1 度,從而得到如圖 12 所示的熱圖。從圖中可以看出,保持現(xiàn)有設(shè)置不變情況下的過冷現(xiàn)象得到明顯改善。

圖 11. 保持現(xiàn)有設(shè)置不變的溫度熱圖

圖 12. 采取措施后的溫度熱圖

  圖 12. 采取措施后的溫度熱圖

結(jié)束語

  結(jié)束語

時空數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的重要研究內(nèi)容,其中時空預(yù)測的應(yīng)用領(lǐng)域最為廣泛。隨著信息技術(shù)的發(fā)展,人們已經(jīng)不滿足于單純的空間數(shù)據(jù)的存儲和展現(xiàn),而是需要更先進的手段幫助理解空間數(shù)據(jù)的變化,發(fā)現(xiàn)空間數(shù)據(jù)之間的動態(tài)關(guān)系。實際上, 很多空間現(xiàn)象是隨時間動態(tài)變化的,在問題求解過程中需要同時考慮時間和空間兩方面因素。本文主要圍繞時空數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀及時空預(yù)測的分類,重點介紹基于時間和空間兩種屬性的時空綜合預(yù)測方法,具體描述了該方法在 IBM SPSS Modeler 中的實現(xiàn),并結(jié)合應(yīng)用實例詳細說明如何應(yīng)用時空數(shù)據(jù)建模及預(yù)測實現(xiàn)準確而有效的時空預(yù)測。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號