BI的體系架構(gòu)及相關(guān)技術(shù)

責(zé)任編輯:editor005

2017-09-13 15:01:54

摘自:數(shù)字化企業(yè)網(wǎng)

其中核心技術(shù)在于數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫的建立(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機(jī)分析處理(OLAP)三個(gè)部分。數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。

一個(gè)BI系統(tǒng)為了滿足企業(yè)管理者的要求,從浩如煙海的資料中找出其關(guān)心的數(shù)據(jù),必須要做到以下幾步:

1)為了整合各種格式的數(shù)據(jù),清除原有數(shù)據(jù)中的錯(cuò)誤記錄——數(shù)據(jù)預(yù)處理的要求。

2)對預(yù)處理過數(shù)據(jù),應(yīng)該統(tǒng)一集中起來——元數(shù)據(jù)(Meta Data)、數(shù)據(jù)倉庫(Data Warehouse)的要求;

3)最后,對于集中起來的龐大的數(shù)據(jù)集,還應(yīng)進(jìn)行相應(yīng)的專業(yè)統(tǒng)計(jì),從中發(fā)掘出對企業(yè)決策有價(jià)值的新的機(jī)會——OLAP(聯(lián)機(jī)事務(wù)分析)和數(shù)據(jù)挖掘(Data Mining)的要求。

所以,一個(gè)典型的BI體系架構(gòu)應(yīng)該包含這3步所涉及的相關(guān)要求。

BI的體系架構(gòu)

圖1 BI的體系架構(gòu)

整個(gè)體系架構(gòu)中包括:終端用戶查詢和報(bào)告工具、OLAP工具、數(shù)據(jù)挖掘(Data Mining)軟件、數(shù)據(jù)倉庫(Data Warehouse)和數(shù)據(jù)集市(Data Mart)產(chǎn)品、聯(lián)機(jī)分析處理(OLAP)等工具。

1)終端用戶查詢和報(bào)告工具。

專門用來支持初級用戶的原始數(shù)據(jù)訪問,不包括適應(yīng)于專業(yè)人士的成品報(bào)告生成工具。

2)數(shù)據(jù)預(yù)處理(STL-數(shù)據(jù)抽取、轉(zhuǎn)換、裝載)

從許多來自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取(Extraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個(gè)企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖。

3)OLAP工具。

提供多維數(shù)據(jù)管理環(huán)境,其典型的應(yīng)用是對商業(yè)問題的建模與商業(yè)數(shù)據(jù)分析。OLAP也被稱為多維分析。

4)數(shù)據(jù)挖掘(Data Mining)軟件。

使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),用來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,做出基于數(shù)據(jù)的推斷。

5)數(shù)據(jù)倉庫(Data Warehouse)和數(shù)據(jù)集市(Data Mart)產(chǎn)品。

包括數(shù)據(jù)轉(zhuǎn)換、管理和存取等方面的預(yù)配置軟件,通常還包括一些業(yè)務(wù)模型,如財(cái)務(wù)分析模型。

6)聯(lián)機(jī)分析處理(OLAP)。

OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。

其中核心技術(shù)在于數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫的建立(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機(jī)分析處理(OLAP)三個(gè)部分。接下來,我們對這幾個(gè)核心部分進(jìn)行詳細(xì)說明:

當(dāng)早期大型的在線事務(wù)處理系統(tǒng)(OLTP)問世后不久,就出現(xiàn)了一種用于“抽取”處理的簡單程序,其作用是搜索整個(gè)文件和數(shù)據(jù)庫,使用某些標(biāo)準(zhǔn)選擇合乎要求的數(shù)據(jù),將其復(fù)制拷貝出來,用于總體分析。因?yàn)檫@樣做不會影響正在使用的在線事務(wù)處理系統(tǒng),降低其性能,同時(shí),用戶可以自行控制抽取出來的數(shù)據(jù)。但是,現(xiàn)在情況發(fā)生了巨大的變化,企業(yè)同時(shí)采用了多個(gè)在線事務(wù)處理系統(tǒng),而這些系統(tǒng)之間的數(shù)據(jù)定義格式不盡相同,即使采用同一軟件廠商提供的不同軟件產(chǎn)品,或者僅僅是產(chǎn)品版本不同,之間的數(shù)據(jù)定義格式也有少許差距。由此,我們必須先定義一個(gè)統(tǒng)一的數(shù)據(jù)格式,然后把各個(gè)來源的數(shù)據(jù)按新的統(tǒng)一的格式進(jìn)行轉(zhuǎn)換,然后集中裝載入數(shù)據(jù)倉庫中。

其中,尤其要注意的一點(diǎn)時(shí),并不是各個(gè)來源的不同格式的所有數(shù)據(jù)都能被新的統(tǒng)一格式包容,我們也不應(yīng)強(qiáng)求非要把所有數(shù)據(jù)源的數(shù)據(jù)全部集中起來。Why?原因很多。有可能原來錄入的數(shù)據(jù)中,少量的記錄使用了錯(cuò)誤的數(shù)據(jù),這類數(shù)據(jù)如果無法校正,應(yīng)該被舍去。某些數(shù)據(jù)記錄是非結(jié)構(gòu)化的,很難將其轉(zhuǎn)化成新定義的統(tǒng)一格式,而且從中抽取信息必須讀取整個(gè)文件,效率極低,如大容量的二進(jìn)制數(shù)據(jù)文件,多媒體文件等,這類數(shù)據(jù)如果對企業(yè)決策不大,可以舍去。

目前已有一部分軟件廠商開發(fā)出專門的ETL工具,其中包括:

Ardent DataStage

Evolutionary Technologies,Inc.(ETI)Extract 

Information Powermart 

Sagent Solution 

SAS Institute 

Oracle Warehouse Builder 

MSSQL Server2000 DTS

數(shù)據(jù)倉庫

數(shù)據(jù)倉庫概念是由號稱“數(shù)據(jù)倉庫之父”William H.Inmon在上世紀(jì)80年代中期撰寫的《建立數(shù)據(jù)倉庫》一書中首次提出,“數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失性的,隨時(shí)間變化的用來支持管理人員決策的數(shù)據(jù)集合”。

面向主題是數(shù)據(jù)倉庫第一個(gè)顯著特點(diǎn),就是指在數(shù)據(jù)倉庫中,數(shù)據(jù)按照不同的主題進(jìn)行組織,每一個(gè)主題中的數(shù)據(jù)都是從各操作數(shù)據(jù)庫中抽取出來匯集而成,這些與該主題相關(guān)的所有歷史數(shù)據(jù)就形成了相應(yīng)的主題域。

數(shù)據(jù)倉庫的第二個(gè)顯著特點(diǎn)是集成。數(shù)據(jù)來源于不同的數(shù)據(jù)源,通過相應(yīng)的規(guī)則進(jìn)行一致性轉(zhuǎn)換,最終集成為一體。

數(shù)據(jù)倉庫的第三個(gè)特點(diǎn)是非易失性。一旦數(shù)據(jù)被加載到數(shù)據(jù)倉庫中,數(shù)據(jù)的值不會再發(fā)生變化,盡管運(yùn)行系統(tǒng)中對數(shù)據(jù)進(jìn)行增、刪、改等操作,但對這些數(shù)據(jù)的操作將會作為新的快照記錄到數(shù)據(jù)倉庫中,從而不會影響到已經(jīng)進(jìn)入到數(shù)據(jù)倉庫的數(shù)據(jù)。

數(shù)據(jù)倉庫最后一個(gè)特點(diǎn)是它隨時(shí)間變化。數(shù)據(jù)倉庫中每一個(gè)數(shù)據(jù)都是在特定時(shí)間的記錄,每個(gè)記錄都有著相應(yīng)的時(shí)間戳。

數(shù)據(jù)倉庫體系架構(gòu)

 

圖2 數(shù)據(jù)倉庫體系架構(gòu)

 

數(shù)據(jù)倉庫對外部數(shù)據(jù)源和操作型數(shù)據(jù)源的元數(shù)據(jù),按照數(shù)據(jù)倉庫模式設(shè)計(jì)要求進(jìn)行歸類,并建成元數(shù)據(jù)庫,相對應(yīng)的數(shù)據(jù)經(jīng)過ETL后加載到數(shù)據(jù)倉庫中;當(dāng)信息客戶需要查詢數(shù)據(jù)時(shí)先通過信息展現(xiàn)系統(tǒng)了解元數(shù)據(jù)或者直接瀏覽元數(shù)據(jù)庫,再發(fā)起數(shù)據(jù)查詢請求得到所需數(shù)據(jù)。

一個(gè)典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng),通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、數(shù)據(jù)的訪問三個(gè)部分。

數(shù)據(jù)倉庫系統(tǒng)

 

圖3 數(shù)據(jù)倉庫系統(tǒng)

 

數(shù)據(jù)源:是指企業(yè)操作型數(shù)據(jù)庫中的各種生產(chǎn)運(yùn)營數(shù)據(jù)、辦公管理數(shù)據(jù)等內(nèi)部數(shù)據(jù)和一些調(diào)查數(shù)據(jù)、市場信息等來自外環(huán)境的數(shù)據(jù)總稱。這些數(shù)據(jù)是構(gòu)建數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ)是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。

數(shù)據(jù)的存儲與管理:數(shù)據(jù)倉庫的存儲主要由元數(shù)據(jù)的存儲及數(shù)據(jù)的存儲兩部分組成。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)據(jù)的抽取規(guī)則、數(shù)據(jù)的轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率等信息。各操作數(shù)據(jù)庫中的數(shù)據(jù)按照元數(shù)據(jù)庫中定義的規(guī)則,經(jīng)過抽取、清理、轉(zhuǎn)換、集成,按照主題重新組織,依照相應(yīng)的存儲結(jié)構(gòu)進(jìn)行存儲。也可以面向應(yīng)用建立一些數(shù)據(jù)集市,數(shù)據(jù)集市可以看作是數(shù)據(jù)倉庫的一個(gè)子集,它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更少,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門級數(shù)據(jù)倉庫。

數(shù)據(jù)的訪問:由OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘、統(tǒng)計(jì)報(bào)表、即席查詢等幾部分組成。例如OLAP:針對特定的分析主題,設(shè)計(jì)多種可能的觀察形式,設(shè)計(jì)相應(yīng)的分析主題結(jié)構(gòu)(即進(jìn)行事實(shí)表和維表的設(shè)計(jì)),使管理決策人員在多維數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行快速、穩(wěn)定和交互性的訪問,并進(jìn)行各種復(fù)雜的分析和預(yù)測工作。按照存儲方式來分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP(Multi-Dimension OLAP)將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫中。分析主題的數(shù)據(jù)可以形成一個(gè)或多個(gè)多維立方體。ROLAP(Relational OLAP)將OLAP分析所需的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中。分析主題的數(shù)據(jù)以“事實(shí)表-維表”的星型模式組織。

數(shù)據(jù)挖掘的定義非常模糊,對它的定義取決于定義者的觀點(diǎn)和背景。如下是一些DM文獻(xiàn)中的定義:

數(shù)據(jù)挖掘是一個(gè)確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。

數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。

數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辯識存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法。數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。

數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過程。

雖然數(shù)據(jù)挖掘的這些定義有點(diǎn)不可觸摸,但在目前它已經(jīng)成為一種商業(yè)事業(yè)。如同在過去的歷次淘金熱中一樣,目標(biāo)是`開發(fā)礦工`。利潤最大的是賣工具給礦工,而不是干實(shí)際的開發(fā)。

目前業(yè)內(nèi)已有很多成熟的數(shù)據(jù)挖掘方法論,為實(shí)際應(yīng)用提供了理想的指導(dǎo)模型。其中,標(biāo)準(zhǔn)化的主要有三個(gè):CRISP-DM;PMML;OLE DB for DM。

CRISP-DM(Cross-Industry Standard Process for Data Mining)是目前公認(rèn)的、較有影響的方法論之一。CRISP-DM強(qiáng)調(diào),DM不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計(jì)建模,而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過程。CRISP-DM將整個(gè)挖掘過程分為以下六個(gè)階段:商業(yè)理解(Business Understanding),數(shù)據(jù)理解(Data Understanding),數(shù)據(jù)準(zhǔn)備(Data Preparation),建模(Modeling),評估(Evaluation)和發(fā)布(Deployment)。其框架圖如下:

CRISP-DM模型框架圖

 

圖4 CRISP-DM模型框架圖

 

從技術(shù)層來看,數(shù)據(jù)挖掘技術(shù)可分為描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類及關(guān)聯(lián)分析等。預(yù)測型數(shù)據(jù)挖掘包括分類、回歸及時(shí)間序列分析等。

1.數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。

2.聚類:是把整個(gè)數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細(xì)分。在開始細(xì)分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費(fèi)特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對不同客戶群體的營銷方案。

3.關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性;序列模式與此類似,尋找的是事件之間時(shí)間上的相關(guān)性,如對股票漲跌的分析等。

4.分類:目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:(v1,v2,...,vn;c),其中vi表示字段值,c表示類別。

5.回歸:是通過具有已知值的變量來預(yù)測其它變量的值。一般情況下,回歸采用的是線性回歸、非線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)。一般同一個(gè)模型既可用于回歸也可用于分類。常見的算法有邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等。

6.時(shí)間序列:時(shí)間序列是用變量過去的值來預(yù)測未來的值。

數(shù)據(jù)挖掘(Data Mining)軟件。使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),用來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,做出基于數(shù)據(jù)的推斷。

數(shù)據(jù)挖掘系統(tǒng)

 

圖5 數(shù)據(jù)挖掘系統(tǒng)

 

以下是一些當(dāng)前的數(shù)據(jù)挖掘產(chǎn)品:

IBM: Intelligent Miner 智能礦工

Tandem: Relational Data Miner 關(guān)系數(shù)據(jù)礦工

AngossSoftware: KnowledgeSEEDER 知識搜索者

Thinking Machines Corporation: DarwinTM

NeoVista Software: ASIC

ISL Decision Systems,Inc.: Clementine

DataMind Corporation: DataMind Data Cruncher

Silicon Graphics: MineSet

California Scientific Software: BrainMaker

WizSoft Corporation: WizWhy

Lockheed Corporation: Recon

SAS Corporation: SAS Enterprise Miner

OLAP的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,他同時(shí)提出了關(guān)于OLAP的12條準(zhǔn)則。OLAP的提出引起了很大的反響,OLAP作為一類產(chǎn)品同聯(lián)機(jī)事務(wù)處理(OLTP)明顯區(qū)分開來。

當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(On-Line Transaction Processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。

OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核心是"維"這個(gè)概念。

“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關(guān)系,這種層次關(guān)系有時(shí)會相當(dāng)復(fù)雜。通過把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維(DImension),使用戶能對不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。

OLAP的基本多維分析操作有鉆?。≧oll Up和Drill Down)、切片(Slice)和切塊(Dice)、以及旋轉(zhuǎn)(Pivot)、Drill Across、Drill Through等。

鉆取是改變維的層次,變換分析的粒度。它包括向上鉆?。≧oll Up)和向下鉆?。―rill Down)。Roll Up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill Down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。

切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊。

旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。

OLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。

ROLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn)(Relational OLAP)。以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲。ROLAP將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來存儲數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對每個(gè)維至少使用一個(gè)表來存放維的層次、成員類別等維的描述信息。維表和事實(shí)表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成了“星型模式”。對于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個(gè)表來描述,這種星型模式的擴(kuò)展稱為“雪花模式”。

MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(Multidimensional OLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說,MOLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成“立方塊(Cube)”的結(jié)構(gòu),在MOLAP中對“立方塊”的“旋轉(zhuǎn)”、“切塊”、“切片”是產(chǎn)生多維數(shù)據(jù)報(bào)表的主要技術(shù)。

HOLAP表示基于混合數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(Hybrid OLAP)。如低層是關(guān)系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。

還有其他的一些實(shí)現(xiàn)OLAP的方法,如提供一個(gè)專用的SQL Server,對某些存儲模式(如星型、雪片型)提供對SQL查詢的特殊支持。

OLAP工具是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問與分析。它通過多維的方式對數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表。維是人們觀察數(shù)據(jù)的特定角度。例如,一個(gè)企業(yè)在考慮產(chǎn)品的銷售情況時(shí),通常從時(shí)間、地區(qū)和產(chǎn)品的不同角度來深入觀察產(chǎn)品的銷售情況。這里的時(shí)間、地區(qū)和產(chǎn)品就是維。而這些維的不同組合和所考察的度量指標(biāo)構(gòu)成的多維數(shù)組則是OLAP分析的基礎(chǔ),可形式化表示為(維1,維2,……,維n,度量指標(biāo)),如(地區(qū)、時(shí)間、產(chǎn)品、銷售額)。多維分析是指對以多維形式組織起來的數(shù)據(jù)采取切片(Slice)、切塊(Dice)、鉆取(Drill Down和Roll Up)、旋轉(zhuǎn)(Pivot)等各種分析動作,以求剖析數(shù)據(jù),使用戶能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入理解包含在數(shù)據(jù)中的信息。

根據(jù)綜合性數(shù)據(jù)的組織方式的不同,目前常見的OLAP主要有基于多維數(shù)據(jù)庫的MOLAP及基于關(guān)系數(shù)據(jù)庫的ROLAP兩種。MOLAP是以多維的方式組織和存儲數(shù)據(jù),ROLAP則利用現(xiàn)有的關(guān)系數(shù)據(jù)庫技術(shù)來模擬多維數(shù)據(jù)。在數(shù)據(jù)倉庫應(yīng)用中,OLAP應(yīng)用一般是數(shù)據(jù)倉庫應(yīng)用的前端工具,同時(shí)OLAP工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計(jì)分析工具配合使用,增強(qiáng)決策分析功能。