面向大數據的時空數據挖掘

責任編輯:editor005

2016-11-08 14:38:20

摘自:51CTO

最后是時空數據模型的輸出選項,主要用于在構建模型之前,使用此頁面中的選項來選擇要包括在模型輸出查看器中的輸出

早期的數據挖掘研究主要針對字符、數值型的商業(yè)數據,隨著信息技術的不斷提高以及移動設備和網絡的廣泛使用,數據產生的速度越來越快,數據收集的頻率越來越高,數據密度的增長越來越顯著,這些因素都使得大數據問題成為一種必然的趨勢。而在大數據時代下很多商業(yè)數據都包含有時間和空間信息,比如設備,建筑,機構等的管理,能量的產生,分布及預測等。

  第一部分:

早期的數據挖掘研究主要針對字符、數值型的商業(yè)數據,隨著信息技術的不斷提高以及移動設備和網絡的廣泛使用,數據產生的速度越來越快,數據收集的頻率越來越高,數據密度的增長越來越顯著,這些因素都使得大數據問題成為一種必然的趨勢。而在大數據時代下很多商業(yè)數據都包含有時間和空間信息,比如設備,建筑,機構等的管理,能量的產生,分布及預測等。

IBM SPSS Modeler 是參照行業(yè)標準 CRISP-DM 模型設計而成的數據挖掘工具,可支持從數據到更優(yōu)商業(yè)成果的整個數據挖掘過程。通過結合時空數據和其他商業(yè)數據,并且運用數據挖掘工具 IBM SPSS Modeler 對時間和空間屬性進行觀測分析,進而獲得對數據的充分理解,并將其應用于商業(yè)活動,從而改進決策過程。

面向大數據的時空數據挖掘的重要性

20世紀90年代中后期,數據挖掘領域的一些較成熟的技術,如關聯規(guī)則挖掘、分類、預測與聚類等被逐漸用于時間序列數據挖掘和空間結構數據挖掘,以發(fā)現與時間或空間相關的有價值的模式,并且得到了快速發(fā)展。信息網絡和手持移動設備等的普遍應用,以及遙感衛(wèi)星和地理信息系統等的顯著進步,使人們前所未有地獲取了大量的地理科學數據。這些地理科學數據通常與時間序列相互關聯,并且隱含許多不易發(fā)現的、又潛在有用的模式。從這些非線性、海量、高維和高噪聲的時空數據中提取出有價值的信息并用于商業(yè)應用,使得時空數據挖掘具有額外的特殊性和復雜性。因此,尋找有效的時空數據分析技術對于時空數據中有價值的時空模式的自動抽取與分析具有重要意義。

近年來,時空數據已成為數據挖掘領域的研究熱點,在國內外贏得了廣泛關注。同時,時空數據挖掘也在許多領域得到應用,如交通管理、犯罪分析、疾病監(jiān)控、環(huán)境監(jiān)測、公共衛(wèi)生與醫(yī)療健康等。時空數據挖掘作為一個新興的研究領域,正致力于開發(fā)和應用新興的計算技術來分析海量、高維的時空數據,發(fā)掘時空數據中有價值的信息。

面向大數據的時空數據挖掘的挑戰(zhàn)

盡管時空數據挖掘研究在近幾年引起了人們的廣泛關注并得到快速發(fā)展,但與傳統數據挖掘相比,時空數據挖掘研究還遠未成熟。隨著時空數據采集效率的不斷提高,時空數據積累越來越大,時空數據挖掘也面臨諸多挑戰(zhàn)。

理論框架

相較于傳統的數據挖掘技術,時空數據挖掘研究還遠未成熟。對于結構復雜且形式多樣的時空數據,如何尋找合適的數據挖掘算法或者技術,可以挖掘什么有價值的模式,如何對這些模式進行分析?這些問題的解決都迫切需要構建一個時空數據挖掘的理論框架。清晰定義的理論框架將會給該研究領域帶來理論上的指導,一方面可更好地理解時空模式需要具備的表達能力,另一方面有助于提出更有效的實現技術。

大數據管理

近年來,傳感器網絡、移動互聯網、射頻識別、全球定位系統等設備的快速發(fā)展和廣泛應用,造成數據量的爆炸式增長,數據增加的速度遠遠超過現有的處理能力。雖然以 MapReduce 和 Hadoop 為代表的大規(guī)模并行計算平臺的出現,為學術界提供了一條研究大數據問題的新思路,但這些技術也有其固有的局限性。一方面,時空數據本質上是非結構化數據,不僅包含時間序列模型,還存在地圖模型,例如城市網絡、道路網絡等?;诘貓D模型的算法時間復雜度通常比較大,對時空數據的存儲管理和索引技術要求比較高。另一方面,MapReduce 計算模型的組織形式和數據處理方法不適合處理時空數據模型;Hadoop 技術也無法有效支持數據挖掘中監(jiān)督學習所用的迭代式計算方法,因而無法完全滿足時空數據分析的需要。這些對學術界和工業(yè)界來數都是一項巨大的挑戰(zhàn)。因此,為了分析處理時空大數據,迫切需要更可靠、更有效和更實用的數據管理和處理技術。

時空數據融合

社交網絡、遙感和傳感器等設備的普遍應用產生了海量的時空數據,且每種設備生成的數據和數據形式各不相同,形成了時空數據結構復雜且來源多樣的特性。此外,互聯網的蓬勃發(fā)展,在文字、音頻和視頻等多媒體數據中同樣包含了豐富的時空數據。例如,廣泛覆蓋城市的監(jiān)控攝像頭,記錄了道路車輛的軌跡信息,從視頻中可以還原出被監(jiān)控車輛的移動軌跡。所以,對時空數據進行有效整合、清洗、轉換和提取是時空數據預處理面臨的重要問題。

時空推理和數據挖掘的深度結合

時空數據中的時間關系和空間關系通常比較復雜,尤其很多可度量的和不可度量的時間關系和空間關系都是隱含在時空數據中,這就需要在數據挖掘系統中結合時空推理加以考慮這些復雜的時空關系。時空推理和數據挖掘的深度結合,一方面可以發(fā)掘更多時空模式及信息,增強時空模式的可理解性;另一方面可以顯著提高挖掘的效率和質量。但有利亦有弊:挖掘數據中隱含的時空關系必然會引入某種程度的不確定性和模糊性,這將很大程度上影響數據挖掘的結果。因此,結合時空推理和數據挖掘需要適當折中模型表達能力和時空推理能力。

面向大數據的時空數據挖掘的應用

如上所述,時空數據挖掘的應用非常廣泛,如交通運輸、地質災害監(jiān)測與預防、氣象研究、競技體育、犯罪分析、公共衛(wèi)生與醫(yī)療及社交網絡應用等。這里我們簡單介紹兩個時空數據挖掘的應用案例,借此了解一下時空數據挖掘在現實生活中的實際應用。

案例一 - 時空數據分析預測

第一個案例是關于亞特蘭大某地區(qū)如何根據 1997 年到 2005 年的人口普查數據從而選擇 2006 年需要新建銀行分行的地點。我們收集的數據包括:1)該地區(qū)的地理信息(地圖文件);2)該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況,包括每個分行的具體地址等;3)該地區(qū)從 1997 年到 2005 年的人口統計信息,包括區(qū)域 ID,人口密度,家庭收入,男女比例,人種比例等。通過時空數據預測分析,我們可以根據往年銀行分行的發(fā)展趨勢預測出該城市銀行分行在下一年即 2006 年的分布密度,同時可以根據該城市家庭收入預測出 2006 年的客戶需求,從而得出基于時空數據的銀行分行的供求關系,繼而確定需要在下一年新建銀行分行的準確地點,即選擇供不應求的地點進行銀行新建。

案例二- 時空數據關聯規(guī)則

第二個案例是基于一件發(fā)生在美國華盛頓州斯波坎市的一個真實的犯罪歷史的犯罪模型分析。這則犯罪事故共發(fā)生犯罪事件 816 起,犯罪類型包括吸毒(167 起),搶劫(97 起)和車輛盜竊(552 起),發(fā)生時間從 2009 年 1 月到 2010 年 3 月,涉及斯波坎市的 10 個區(qū)和 23 條主要街道。我們得到的數據包括斯波坎市的部分地圖信息,三種犯罪類型的統計信息以及該地區(qū)的人口統計信息,包括人口密度,家庭收入,男女比例,人種比例等。通過時空數據關聯規(guī)則分析,我們可以根據每種犯罪事件發(fā)生的時間和地點得出該種犯罪類型和特定時間段和地理位置的關聯關系,比如周末在公路附近多發(fā)吸毒事件等。同時我們還可以從時空數據分析中得到非時空數據的關聯關系,比如人口密度小的地區(qū)多發(fā)搶劫事件等。

時空數據理解

與傳統的數據挖掘一樣,不管是時空數據分類預測,時空數據關聯規(guī)則挖掘還是時空聚類,獲取足夠的時空數據并充分理解這些數據的特征及屬性是時空數據挖掘的先決條件。時空數據,顧名思義,必然包括與時間序列相關的數據以及與空間地理位置相關的數據,另外時空數據挖掘還必須包含將要分析預測或者尋找關聯規(guī)則的事件數據,也就是在特定時間和空間下發(fā)生的具體事件。

時間數據的理解

時間數據是指和時間序列相關的數據,表述了目標事件隨時間的不同而發(fā)生的變化?,F實中的數據常常與時間有關,按時間順序取得的一系列觀測值就被稱為時間序列數據,這類數據反映了某一事物、現象等隨時間的變化狀態(tài)或程度。如我國國內生產總值從 1949 到 2009 的變化就是時間序列數據。對時間序列數據進行更深一步的分析和處理,對人類社會、科技和經濟的發(fā)展有重大意義。目前時間序列的數據挖掘是數據挖掘的重要研究熱點之一。時間序列數據可作年度數據、季度數據、月度數據等細分,甚至以周、天、時、分、秒為周期,其中很有代表性的季度時間序列模型就是因為其數據具有四季一樣變化規(guī)律,雖然變化周期不盡相同,但是整體的變化趨勢都是按照周期變化的。

上述案例一中,該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況和人口統計信息就是時間序列數據,找出該地區(qū)銀行分行從 1997 年到 2005 年之間隨時間的發(fā)展趨勢,從而預測下一年的分布情況是時空數據分析預測的重點之一。在案例二中,從 2009 年 1 月到 2010 年 3 月發(fā)生的犯罪事件也包含了時間數據,我們需要進一步分析犯罪事件發(fā)生的時間周期(以月為周期,還是以周甚至以天為周期),從而更準確地挖掘出該犯罪事件的發(fā)生和時間的關聯關系。

空間數據的理解

空間數據是指用來表示空間實體的地理位置和分布特征等方面信息的數據,表述了空間實體或目標事件隨地理位置的不同而發(fā)生的變化??臻g數據是數據的一種特殊類型,它是指帶有空間坐標的數據,這類數據通常是地圖文件,用點、線、面以及實體等基本空間數據結構來表示。一個地圖文件通常只包含一種類型的空間數據結構,比如面(代表國家或者地區(qū)),線(代表道路或者河流)或點(代表特定的地址)。如果想要比較復雜的地圖文件,其中包含多種空間數據結構的話,通常需要多個地圖文件迭加來獲得。除了地圖信息,空間數據還包括地圖信息的背景數據,用來描述地圖文件上的對象屬性。比如,一個地圖文件包含街道,那么就需要相應的背景數據來描述了該街道的大小,名字或者一些分類信息(分行道,單行道,雙行道,禁止通行等)。

上述案例一中,亞特蘭大某地區(qū)的地理信息即地圖文件就是空間數據,描述了該地區(qū)的拓撲結構,以多邊形來表示該地區(qū)的不同區(qū)域。同樣,在案例二中,斯波坎市的部分地圖信息就是空間數據,描述了斯波坎市的空間地理分布情況,用多邊形表示斯波坎市的 10 個不同地區(qū),用線表示斯波坎市的 23 條主要街道。

事件數據的理解

事件數據是指事務性的數據,表述了在某個時間區(qū)間某個地理范圍之內所發(fā)生的事件。事件數據通常和時間數據相關,甚至時間數據本身同時也是事件數據,都是在某個時間序列上發(fā)生的一系列事件。不同的是,時間數據的關注點是目標事件發(fā)生的時間,或者說是時間序列數據中的時間變量,而事件數據的關注點是在某個時間序列上發(fā)生的事件。事件數據一般不會和地圖文件直接相關,而是包含坐標值來關聯事件數據和地圖文件。事件數據的每一條記錄通常都指的是某個特定的人或事,并且包括和該人或事相關的其他信息,比如該人或事的具體地理位置。

上述案例一中,該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況就是事件數據,描述銀行分行的地理位置,并包含坐標值和該地區(qū)的地圖文件相關聯。在案例二中,從 2009 年 1 月到 2010 年 3 月發(fā)生的犯罪事件同時也是事件數據,描述不同的犯罪類型,吸毒、搶劫和車輛盜竊,分別發(fā)生在斯波坎市的不同區(qū)域。

時空數據預處理

時空數據結構復雜且來源多樣,在充分理解了時間數據,空間數據和事件數據的特征、屬性及他們之間的關聯關系的基礎上,整合、清洗和轉換不同來源的時空數據,使得他們符合特定時空數據挖掘算法的要求,是時空數據預處理面臨的重要問題。本節(jié)我們將結合 IBM SPSS Modeler 詳細介紹時空數據預處理的方法和步驟。

時間數據預處理

時間序列數據結構復雜且來源多樣,如何將不同來源的時間序列數據合并并用于時空數據分析,是時空數據預處理面臨的首要問題。不同時間序列數據的時間起點及時間間隔都不盡相同,想要合并多個時間序列數據就必須要求每個時間序列數據具有相同的時間間隔,這就需要對各個時間變量的時間間隔進行構建。在 IBM SPSS Modeler 中,時間間隔的構建有兩種方法,匯總和填充。

匯總是一個經常用于減小數據集大小的數據準備手段。執(zhí)行匯總之前,應該花一些時間來清理數據,尤其要關注缺失值。一旦完成匯總,或許會丟失可能有用的缺失值信息。我們可以選擇基于指定的匯總函數來匯總時間間隔較小的數據,不同類型的數據可以用不同的匯總函數。連續(xù)性時間變量可以通過均值、合計、眾數、最小值和最大值來匯總,而離散型變量則可以通過眾數、第一個和最后一個匯總組中的非空值來匯總。

填充是用于替換字段值的一種方法,也可以用來將空白值或空值指定為特定值。我們也可以選擇基于指定的填充函數來替換字段值,同樣,不同類型的數據可以用不同的填充函數。連續(xù)性時間變量可以使用"最近點的平均值",即將要創(chuàng)建的時間周期之前的三個最近非空值的均值來替換或者填充新的字段值,而離散型時間變量則可以用將要創(chuàng)建的時間周期之前的最近非空值來替換或者填充新的字段值。

在將多來源的時間序列數據合并的過程中,我們需要根據指定的時間間隔來選擇匯總或者填充時間字段。例如,如果有以周和月為單位的混合數據,則可以對周值進行匯總或"累計",以獲得均勻的月間隔?;蛘撸部梢詫㈤g隔設置為周,并通過為所有缺失周插入空白值或使用指定的填充函數外推缺失值來填充序列。

空間數據預處理

我們已經知道,空間數據是數據的一種特殊類型,它是指帶有空間坐標的數據,用點、線、面以及實體等基本空間數據結構來表示。但是空間坐標有不同的表達方式,有些空間數據的坐標是多個單維坐標形式,如用三個單獨的字段 x, y, z 分別表示三維坐標; 有些空間數據的坐標是一個多維坐標形式,如用一個列表[x, y, z]來表示三維坐標。既然涉及坐標,就必然會關系到坐標系,而不同空間數據的坐標系往往不同。另外,和時間數據一樣,空間數據來源多樣,每個空間數據的基本數據結構都不盡相同,如何關聯多種類型的數據結構同樣是空間數據預處理面臨的重要問題。

首先來看多個單維坐標字段和一個多維坐標字段之間的轉換,這個過程通常比較簡單。在 IBM SPSS Modeler 中,這個過程只需要組合多個單維坐標字段即可實現,例如,直接用組合單獨的坐標字段 x, y, z,返回的派生字段即為列表[x, y, z]。

任何一個空間數據,不管是地圖,坐標還是經緯度值,都會關聯一個坐標系。坐標系定義了坐標值的原點,單位,正方向等,是坐標值的參照系。坐標系的種類很多,大體可以歸納為兩大類,地理坐標系和投影坐標系。地理坐標系,是球面坐標系統,以經緯度為地圖的存儲單位的。投影坐標系,是平面坐標系統,其地圖單位通常為米。要得到投影坐標就必須得有一個"拿來"投影的球面坐標,然后才能使用算法去投影,即每一個投影坐標系統都必須要求有地理坐標系參數。坐標轉換是空間實體的位置描述,是從一種坐標系統變換到另一種坐標系統的過程,通過建立兩個坐標系統之間一一對應關系來實現。在 IBM SPSS Modeler 中,我們可以選擇一個或者多個坐標轉換的地理字段,指定要轉換的坐標系,從而實現多個地理字段統一坐標系的目的。

如上所述,一個空間數據或地圖文件通常只包含一種類型的空間數據結構,如果想要比較復雜的地圖文件,其中包含多種空間數據結構的話,通常需要多個地圖文件迭加來獲得。比如,我們有面圖表述某地區(qū)的不同區(qū)域和線圖表述該地區(qū)的河流街道,那么如何得到不同的河流街道和各個地區(qū)之間的位置關系呢?在 IBM SPSS Modeler 中,我們可以通過位置函數來獲得不同類型的空間數據結構之間的位置關系。例如,用 close_to()來確定某條河流是否靠近某個地區(qū),用 distance()來獲得兩個地區(qū)或者兩條街道之間的距離等。

事件數據預處理

事件數據是時空數據挖掘的主題,它的每一條記錄都是特定的人或事,并且包括該人或事的相關信息,特別是發(fā)生的地理位置。事件數據的預處理通常是指和時間數據或者空間數據的整合,以便獲得最終可以直接應用于時空數據挖掘算法的數據。具體內容詳見下節(jié)時空數據的融合。

時空數據的融合及展示

上文我們已經了解了時空數據來源多樣且結構復雜,不管是時間數據、空間數據還是事件數據都有其自身的特征和屬性,如何融合各種數據并把結果展示出來對時空數據挖掘至關重要。

時空數據的融合

時空數據的融合通常是通過合并時間數據、空間數據和事件數據來完成的。數據合并的方法很多,可以按記錄順序合并,可以通過多個數據共有的關鍵字來合并,還可以根據自定義的條件進行合并。按關鍵字或者自定義條件合并又可分為內連接,全外連接,部分外連接等。

事件數據和時間數據的融合可以通過關鍵字,譬如區(qū)域 ID 號,郵政編碼,事件發(fā)生時間等來實現。例如,在上述案例一中,我們可以設置區(qū)域 ID 號或者時間字段為關鍵字來融合從 1997 年到 2005 年的銀行分行分布數據和人口統計數據。

由于涉及空間地理位置,事件數據和空間數據的融合通常按照事件數據進行左外連接。在 IBM SPSS Modeler 中,這種左外連接還結合位置函數來獲得事件發(fā)生的地點和空間數據結構之間的位置關系。例如,在上述案例二中,我們要融合犯罪事件文件和斯波坎市的地圖文件,可以選擇犯罪事件為主數據對犯罪事件和地圖文件進行左外連接,用位置函數 close_to()來查找某種犯罪事件發(fā)生的地點和斯波坎市街道在某個特定范圍內的臨近關系,或者用位置函數 within()來定位某種犯罪事件是否發(fā)生在某個特定區(qū)域。

時空數據的展示

由于空間數據是一種特殊的數據類型,使得時空數據說起來比較抽象,本小節(jié)我們就將時空數據以圖形方式給出一個簡單的展示。

我們已經知道,時空數據首先是基于一張地圖,包括不同的空間數據結構,比如多邊形(面),線,點等, 通常以.shp 格式存在。簡單的理解,單獨的空間數據即使一張某地區(qū)的地圖。例如,在上述案例一中的亞特蘭大某地區(qū)的地圖用 IBM SPSS Modeler 中的圖形文件如圖 1 所示,其中多邊形表示不同區(qū)域。

圖 1:亞特蘭大某地區(qū)地圖

如果有多個地圖文件,并且經過預處理之后,各個地圖文件有相同的坐標系,則可迭加輸入從而得到多層次的地圖文件,比如多邊形上貫穿線串表示道路,河流等。如果已經融合了事件數據,我們還可以設置不同的符號和顏色分別表示不同的事件,比如在上述案例二中,用三角形表示吸毒,用圓圈表示搶劫,用方形表示車輛盜竊,如圖 2 所示。

圖 2:斯波坎市犯罪事件地圖

  結束語

大數據時代下,隨著數據收集效率的不斷提高和時空數據挖掘的快速發(fā)展,很多不同來源的商業(yè)數據都包含有時間和空間信息,比如設備,建筑,機構等的管理,能量的產生,分布及預測等。如何結合時空數據和其他商業(yè)數據,并且通過對時間和空間屬性的觀測分析獲得決定性的認知從而優(yōu)化決策就顯得至關重要。本文通過介紹面向大數據的時空數據挖掘的重要性及面臨的挑戰(zhàn),詳細描述了運用數據挖掘工具 IBM SPSS Modeler 對時空數據的理解、預處理,融合及展示,為下一步進行時空數據的建模預測以及關聯規(guī)則的挖掘奠定了基礎。

第2部分

面向大數據的時空數據挖掘現狀

隨著傳感器網絡、手持移動設備等的普遍應用,遙感衛(wèi)星和地理信息系統等的顯著進步,人們獲取了大量地理科學數據。這些數據內嵌于連續(xù)空間,并且隨時間動態(tài)變化,具有很大程度的特殊性和復雜性。實際上,很多應用領域,例如交通運輸、氣象研究、地震救援、犯罪分析、公共衛(wèi)生與醫(yī)療等,在問題求解過程中需要同時考慮時間和空間兩方面因素。而隨著信息技術的發(fā)展,人們已經不滿足于單純的時空數據的存儲和展現,而是需要更先進的手段幫助理解時空數據的變化。如何從這些復雜、海量、高維、高噪聲和非線性的時空數據中挖掘出隱含的時空模式,并對這些模式進行分析從而提取出有價值的信息并用于商業(yè)活動是對時空數據挖掘及分析技術的一項極大的挑戰(zhàn)。

IBM SPSS Modeler 是參照行業(yè)標準 CRISP-DM 模型設計而成的數據挖掘工具,可支持從數據到更優(yōu)商業(yè)成果的整個數據挖掘過程。通過結合時空數據和其他商業(yè)數據,并且運用數據挖掘工具 IBM SPSS Modeler 對時間和空間屬性進行觀測分析,建立預測性模型,進而獲得決定性的認知,并將其應用于商業(yè)活動,從而改進決策過程。

面向大數據的時空預測簡介

面向大數據的時空預測主要是基于時空對象的特征構建預測模型進而預測時空對象在未來特定時間范圍內特定空間位置下的行為或者狀態(tài)。

時空預測的分類

根據時空對象的不同,時空預測有不同的分類。面向時空數據的位置和軌跡預測、密度和事件預測、結合空間的時間序列預測等研究都具有重要的應用前景。

位置和軌跡預測

面向時空數據的位置預測主要是基于時空對象的特征構建預測模型來預測時空對象所在的具體空間位置。對于實時物流、實時交通管理、基于位置的服務和 GPS 導航等涉及時空數據的應用而言,預測單個或者一組對象未來的位置或目的地是至關重要的,它能使系統在延誤的情況下采取必要的補救措施,避免擁堵,提高效率。

除了位置預測之外,面向時空數據的軌跡預測可以推測移動對象的出行規(guī)律。例如,社交網絡應用借助 GPS 設備記錄用戶軌跡數據,通過"簽到"應用(如微信、微博等)分享位置信息。分析這些共享的 GPS 軌跡數據,可以為用戶推薦感興趣的旅游景點和游覽次序。

密度、事件預測

某個區(qū)域的對象密度定義為在給定時間點該區(qū)域內對象數與該區(qū)域大小之比。這是一些對象隨時間變化而呈現出的一個全局特征。面向時空數據的密度預測主要應用于實時交通管理,會對及時改善交通擁堵帶來很大助益。例如,交通管理系統通過密度預測可以識別出道路中的密集區(qū)域,從而幫助用戶避免陷入交通阻塞,并采取有效措施及時緩解交通擁堵。此外,面向時空數據的事件預測可以根據歷史數據(時間序列),結合地理區(qū)域密度估計(發(fā)現重要特征和時空地點)來預測給定時間范圍和空間位置的概率密度,譬如基于過去犯罪事件發(fā)生的地點、時間和城市經濟等特征預測給定區(qū)域和時間段內犯罪發(fā)生的概率,進而檢測犯罪發(fā)展趨勢,有效降低城市犯罪率。

結合空間的時間序列預測

結合空間的時間序列預測是從時間的角度來考慮時空數據。與傳統的時間序列不同的是,與空間有關的時間序列彼此不是獨立的,而是和空間相關的。例如,可以首先構造時間序列模型以獲取每個獨立空間區(qū)域的時間特性,然后構造神經網絡模型擬合隱含的空間相關性,最后基于統計回歸結合時間和空間預測獲得綜合預測。

時空預測的理論框架

如上所述,時空預測根據時空對象的不同有不同的分類方法,本文我們重點介紹 IBM SPSS Modeler 中對于包含時間和空間兩種屬性的數據的建模與預測。其提供了一個綜合時間和空間屬性的有效的手段,充分利用各種數據序列的特征,將時間、空間及時空自回歸預測方法有效地結合,并在預測同時考慮了研究對象之間的空間影響關系,從而提高了預測的精確度。

時空數據建模

時空預測模型實質上是一個基于線性回歸的擴展模型,其原理可以用如下公式表示:

其中, 系數β是自變量的系數,表示自變量對于目標變量的影響程度;Z作為線性擬合的殘差,是目標變量變化中用自變量線性組合無法表示的部分,可用來在自回歸(Autoregressive,AR)模型中捕捉時間自相關性,進而用于描述空間的相關性。我們可以通過圖 1 所示的流程圖來具體討論這一過程。

圖 1. 時空數據建模流程圖

  Job0:準備工作

針對時空建模的復雜性,適當的數據驗證和缺失值篩選將有助于模型的構建。通過檢測,包含缺失值或無效值百分比較高的一些樣本位置將從分析中刪除,而缺失值或無效值百分比較低的樣本位置則被留下來,后期建模過程中將對其進行特殊編碼處理,以盡可能多保留數據信息。

Job1:擬合線性回歸模型

回歸模型采用標準的線性回歸模型(包括或不包括截距),但由于數據的時空相關關系,其殘差會形成一個零均值的非獨立的時空相關隨機過程。線性回歸的系數,可衡量自變量對目標變量的影響程度,較大的系數對應的自變量表明其單位變化會產生較大的目標變量變化。

Job2:擬合時間自回歸模型

自回歸模型使用指定的自回歸階數,即指定之前若干個時刻的值來預測當前值。自回歸的系數可用與衡量過往時刻的殘差對當前值的影響。自回歸模型同樣包含殘差,由于其中的時間自相關因素已被移除,自回歸模型的殘差在時間上是相互獨立的。

Job3:計算時間自回歸模型殘差并建立空間協方差模型

基于地理空間的協方差模型建立在時間自回歸模型殘差的基礎上,空間協方差模型有兩種實現方法:參數法和非參數法。參數法具有更精簡的數學表達式和更好的模型推廣能力,所以在假設所給數據能夠進行參數化建模的情況下,提供了兩個參數檢驗方法來確定模型的準確性。其一是檢測是否空間中存在隨著距離而變化的衰減,其二檢測空間方差在給定區(qū)域具有普遍性(方差同質性檢驗)。如果不滿足參數化模型的假設,將會構造非參數化的模型,利用空間殘差所形成空間關系矩陣來描述數據中的空間關系。

Job4:修正時間自回歸模型

空間協方差量化表達了數據的空間關系,從而可以從之前線性回歸的殘差中移除空間關系的影響,進而能夠修正時間自回歸模型,更新自回歸模型的參數,獲得更加準確的時間自回歸關系的描述。

Job5:修正線性回歸模型

基于準確 的空間關系和時間自相關關系的描述,可從原始的數據中去除時間和空間關系的影響,從而能夠修正線性回歸模型的參數,更加準確的描述出自變量對目標變量的影響。

Job6:計算測定后的統計值并保存結果

上述步驟已經完成了模型的估計過程,獲得的模型可生成目標變量的估計值,與觀測值相比較,能夠評價所建模型的質量。同時通過一些參數檢驗的方法,可以評價自變量,時間自回歸系數的重要性等一些基于模型的評價指標。

時空數據預測

時空數據預測是基于時空數據模型的一個假設情況分析(what-if 分析),可以預測未來一段時間在分析范圍中任何地理位置的目標值。我們可以通過圖 2 所示的流程圖來具體討論這一過程。

圖 2. 時空數據預測流程圖 參考資源

  Step1:準備時空預測輸入數據

想要獲得未來時間的目標預測值,首先需要有和時空數據建模的輸入數據結構統一的未來時刻的自變量數據。未來時刻的自變量數據可以保持已知的最終數據不變,或者是人為修改過的用于假設分析的數據。

Step2:構建空間協方差矩陣來捕捉預測地理位置和初始地理位置之間的空間相關性

預測數據中的地理位置和初始數據中的地理位置可以不同,也可以預測數據中一些地理位置和初始地理位置相同,或者預測地理位置是初始地理位置的子集。

Step3:對初始位置的回歸殘差進行空間插值得到預測的地理位置

利用第 2 步構建的空間協方差矩陣對初始地理位置經過轉換后的回歸殘差進行插補,從而得到預測的地理位置。

Step4:預測未來時間的線性回歸殘差

預測未來時間的回歸殘差是在時間點 m+1, m+2, ... m+H 上逐步迭代進行, 其中, m 是建模的最終時間點,H 是需要預測的未來時間點的個數。

Step5:計算未來時間點的目標值

未來時間點的目標值需要通過回歸模型,第 4 步中計算得到的時間點 m+1, m+2, ... m+H 上的回歸殘差和在未來時間點和新的地理位置上的預測輸入數據值來計算。

Step6:計算未來時間點目標值的置信區(qū)間

基于高斯過程和已知模型每一部分的方差情況,可逐級推出最終預測目標值的置信區(qū)間。此步驟過于復雜,本文不作詳述。

Step7:預測結果輸出

最終得到的預測結果包括在未來時間指定位置的目標值,以及預測值置信區(qū)間的上下限。

時空預測應用實例

在充分了解時空數據建模及預測理論結構的基礎上,我們來描述該時空預測模型在 IBM SPSS Modeler 中的具體實現,并結合應用實例展示如何應用時空數據模型的假設情況分析(what-if 分析)實現對未來任何時間任何地點目標值的準確預測。

時空預測模型描述

在 IBM SPSS Modeler 中,時空預測模型分析使用包含位置數據、預測輸入字段(預測變量)、時間字段和目標字段的數據,如圖 3 中時空預測模型字段選項的參數所示。 時空預測模型的輸入數據必須是經過時空數據預處理,融合了時間序列和形狀數據,同時包含時間變量,空間位置變量及其他相關變量的數據。在該數據中,每個位置在數據中都有許多行,這些行表示每個預測變量在每個測量時間的值。 分析數據后,可以使用該數據來預測所使用的形狀數據(.shp 文件)內任意位置處的目標值。 并且,還可以預測何時能夠獲知未來時間點的輸入數據。

圖 3.時空預測模型-字段選項

這里,目標字段是將要預測的目標變量。位置字段是一個測量級別為"地理空間"的字段,可以是點、線、多邊形(面)、多點、多線、多面等位置類型。形狀數據通常包含一個表明層特征的名稱的字段,例如,這可能是省/自治區(qū)/直轄市或者國家或地區(qū)的名稱。 使用此字段可以將名稱或標簽與位置相關聯,方法是選擇一個分類字段來標注輸出中的所選位置字段,即位置標簽字段。時間字段是要在預測中使用的時間變量,只能選擇測量級別為"連續(xù)"且存儲類型為時間、日期、時間戳記或整數的字段。預測變量是預測輸入字段,只能選擇測量級別為"連續(xù)"的字段。

設置好時空預測模型所需的變量后,我們就該考慮時空預測模型的構建了。在 IBM SPSS Modeler 中,時空預測模型的構建選項還分為時間間隔、基本、高級和輸出等子項,分別實現時空數據建模中的不同功能。

在可以構建時空預測模型之前,需要進行數據準備以便將時間字段轉換為索引;要使得能夠進行這種轉換,時間字段中的記錄之間必須有固定的區(qū)間。如果數據尚未包含此信息,我們就可以使用"時間間隔"子項中的選項來設置此區(qū)間,然后才能進行時空數據建模。"時間間隔"選項如圖 4 所示。

圖 4. 時空預測模型-時間間隔選項

根據輸入數據中時間字段的特征選擇或者轉換為合適的時間間隔是時空數據建模的必要條件。這里,時間間隔可以以周期、年、季度、月、周、天、時、分、秒等一系列為單位?;谒x的時間間隔,還有一系列與之相關的選項,比如,時間間隔為年或季度時的開始月份,時間間隔為周時每周的第一天和每周的天數,時間間隔為小時時每天的小時數和一天開始的時間等。如果輸入數據已包含正確的時間間隔信息,并且不需要進行轉換,選中"數據匹配指定時間間隔設置" 復選框。 選中此框后,"匯總"區(qū)域中的設置將不可用。反之,如果輸入數據中的時間字段需要轉換為特定區(qū)間,取消選中"數據匹配指定時間間隔設置"復選框,并指定用于匯總的字段以便與指定區(qū)間匹配的選項。 例如,如果有以周和月為單位的混合數據,那么可以對周值進行匯總或累計,以獲得均勻的月間隔。所用的匯總方法可以從"缺省設置"下拉框中選擇并應用于未逐個指定的所有連續(xù)字段。如果希望對于特定字段進行定制設置,即將特定匯總函數應用于個別字段,則在"指定字段的定制設置"表中選擇字段并選擇匯總方法。

實際上,時間間隔的設置與轉換是時空數據預處理的一部分,在 IBM SPSS Modeler 中,為方便使用,內嵌于時空數據建模中。時空數據建模的構建實質是通過基本構建選項和高級構建選項來設置的,如圖 5 和圖 6 所示。

圖 5. 時空預測模型-基本構建選項

我們可以在基本構建選項里主要設置最大自回歸階數和空間協方差矩陣的估計方法。自回歸階指定使用哪些先前值來預測當前值,使用"最大自回歸標志"選項可以指定用于計算新值的先前記錄數??臻g協方差的估計方法可以選擇參數或非參數,其中參數方法又可以從三種模型類型中進行選擇:高斯、指數和冪指。

圖 6. 時空預測模型-高級構建選項

時空數據建模的高級構建選項主要用來對模型構建過程進行微調。其中,"缺失值的最大百分比"指定模型中可以包括的包含缺失值的記錄所占的最大百分比。"模型構建中假設測試的顯著性水平"指定用于時空數據模型估計的所有檢驗(包括兩項擬合優(yōu)度檢驗、效應 F 檢驗和系數 T 檢驗)的顯著性水平值,此級別可以是 0 與 1 之間的任何值,并以 0.01 為增量變動。

最后是時空數據模型的輸出選項,主要用于在構建模型之前,使用此頁面中的選項來選擇要包括在模型輸出查看器中的輸出,如圖 7 所示。

圖 7.時空預測模型-輸出選項

如圖所示,時空數據模型的輸出分為模型信息、評估、和解釋三部分。其中,模型信息包括模型規(guī)范和時間信息摘要;評估包括模型質量和均值結構模型中的效應檢驗;解釋包括平均結構模型系數、自回歸系數、測試空間衰減、參數空間協方差模型參數散點圖、相關性熱圖、相關性圖和位置聚類。所有這些圖或表均從不同角度展現時空數據模型,以不同形式向用戶詮釋時空數據模型的意義。

時空預測應用實例

時空預測模型有許多潛在的應用,例如緊急管理建筑物或設施、對機械服務工程師進行績效分析和預測或者進行公共交通規(guī)劃。 在這些應用中,通常要對時間和空間進行能耗等測量。 可能與記錄這些測量值相關的問題包括哪些因子影響未來的觀測值、如何實現所需的變化或者如何更好地管理系統? 為了回答這些問題,我們可以在不同位置使用能夠預測未來值的統計技術,并可以顯式地對可調因子進行建模以執(zhí)行假設情況分析。

本節(jié)我們將通過應用時空數據建模以及執(zhí)行假設情況分析來實現數據中心的能量管理,避免使用過多的制冷能量把數據中心的熱量控制在可接受的標準范圍內。一個典型的數據中心,壓力通風系統(plenum)通過打孔瓦(perforated tiles)供應冷空氣,冷空氣通過通風口(inlet)冷卻服務器溫度。而服務器散發(fā)熱空氣并傳給空調機組(ACU),熱空氣在空調機組里被冷卻并重新交換到壓力通風系統,依此循環(huán)。為了更好地實現數據中心的能量管理,數據中心還需部署實時熱量傳感器(thermal sensors)來監(jiān)控能量使用。但是,熱量傳感器不可能存在數據中心的任何一個位置,因而需要對沒有部署熱量傳感器的位置進行預測。因此,我們將建立一個時空數據預測模型來預測整個數據中心在未來時間的溫度,并結合影響數據中心溫度的其他相關因素執(zhí)行假設情況分析,從而對如何改善數據中心的能量使用效率提出建設性意見。

數據收集和預處理

為了進一步理解并調控數據中心的熱量管理系統,數據中心在有限的位置布置熱量傳感器,通過傳感器收集不同位置的實時溫度。另外,數據中心的熱量傳感器、空調機組和打孔瓦的物理參數,比如每個熱量傳感器的坐標位置,每個空調機組的坐標位置和長寬高(三維物體)以及打孔瓦的坐標和長寬(二維物體)等信息也會相應地影響數據中心不同位置的空氣流,如圖 8 所示。

圖 8. 數據中心結構圖

這些數據不能直接應用于時空數據預測建模,必須要先進行數據預處理,把溫度數據、各個物體的位置數據等進行融合,從而得到一個包含空間地理位置字段,時間字段,預測輸入字段和將要預測的目標字段的一個表格式的輸入數據。

時空數據建模

經過數據預處理,我們得到一個包括時空數據預測建模所需字段的標準輸入數據。然后我們將選擇并設置時空數據預測模型的不同參數來建立時空數據預測模型。很顯然,這里的目標字段為數據中心的溫度,空間位置字段為溫度被監(jiān)控的位置,即熱量傳感器的坐標位置,時間字段為溫度被監(jiān)控的一系列時間點,預測數據字段則為其他相關因素,包括數據中心的空氣流、空調機組的長寬高等,如圖 9 所示。

圖 9. 數據預處理后的輸入數據結構

接下來根據數據中心溫度的監(jiān)控時間點來設置時間間隔選項,如果溫度是每小時收集一次,那么時間間隔應設為小時并設置起始點;如果溫度的收集頻率是一天一次,則應設時間間隔為天。并且根據輸入數據的時間變量的特征決定是否需要對數據進行轉換從而使得數據與指定的時間間隔設置匹配。

然后根據需求設置最大自回歸階數指定使用哪些先前值來預測未來值,并且指定計算空間協方差的估計方法。為了最大程度的提高對時空數據預測模型的預測準確性,還可以通過設置"缺失值的最大百分比"和"模型構建中用于假設檢驗的顯著性水平" 對模型構建過程進行微調。

最后構建時空數據模型,從而實現后續(xù)的模型輸出和假設檢驗分析。

時空數據預測

想要獲得對目標值的預測,即要了解下一個時間監(jiān)測點或者將來某個時間點數據中心不同位置的溫度值,需要有和時空數據建模的輸入數據結構統一的預測輸入數據。其中,時間為將要預測溫度值的時間點,空間位置為將要預測溫度值的位置點,其他相關輸入變量均為每個將要預測溫度的位置的相應未來值。有了預測輸入變量,輸入時空數據模型即可得到數據中心在指定時間指定位置的溫度值,同時還可獲得該預測值的錯誤方差及預測置信度的上下限。

時空預測結果展示

時空數據預測模型的顯著性不僅在于它可以同時處理時間和空間兩種屬性并對未來任何時間任何地點的目標值進行預測,更在于可以通過時空預測模型進行假設檢驗分析從而改善決策。

在上述數據中心能量管理的應用實例中,時空數據模型可以通過熱圖來可視化在指定時間指定位置的目標值,如圖 10 所示。

圖 10. 數據中心溫度預測熱圖

在時空預測過程中,首先假定在下一個時間監(jiān)測點所有其他的參數都保持現有值,即空調機組的數目和位置,熱量傳感器的位置,空氣流等保持不變的情況下的溫度情況,得到如圖 11 熱圖所示的結果。從圖中可以看出,在現有制冷持續(xù)的情況下,部分區(qū)域會出現溫度過冷現象?;谠摷僭O檢驗分析的結果,為了節(jié)約能量,我們可以把空調機組的制冷設置溫度升高 1 度,從而得到如圖 12 所示的熱圖。從圖中可以看出,保持現有設置不變情況下的過冷現象得到明顯改善。

圖 11. 保持現有設置不變的溫度熱圖

  圖 12. 采取措施后的溫度熱圖

  結束語

時空數據挖掘是數據挖掘中的重要研究內容,其中時空預測的應用領域最為廣泛。隨著信息技術的發(fā)展,人們已經不滿足于單純的空間數據的存儲和展現,而是需要更先進的手段幫助理解空間數據的變化,發(fā)現空間數據之間的動態(tài)關系。實際上, 很多空間現象是隨時間動態(tài)變化的,在問題求解過程中需要同時考慮時間和空間兩方面因素。本文主要圍繞時空數據挖掘的發(fā)展現狀及時空預測的分類,重點介紹基于時間和空間兩種屬性的時空綜合預測方法,具體描述了該方法在 IBM SPSS Modeler 中的實現,并結合應用實例詳細說明如何應用時空數據建模及預測實現準確而有效的時空預測。

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號