隨著大數(shù)據(jù)技術(shù)的不斷提高,大數(shù)據(jù)應(yīng)用的不斷普及,大數(shù)據(jù)與各行各業(yè)的關(guān)系越來越緊密。大數(shù)據(jù)行業(yè)充斥著大量的專業(yè)詞匯,準(zhǔn)確掌握和了解這些詞匯的含義,有助于更好的理解大數(shù)據(jù),更好地利用大數(shù)據(jù)技術(shù)。以下整理了以數(shù)據(jù)處理為中心的14個(gè)大數(shù)據(jù)專業(yè)詞匯, 一起來看看吧~~~
本地?cái)?shù)據(jù)庫(LDB/Local Data Base)
本地?cái)?shù)據(jù)庫是指駐留于運(yùn)行客戶應(yīng)用程序的機(jī)器的數(shù)據(jù)庫。本地?cái)?shù)據(jù)庫位于本地磁盤或局域網(wǎng)。典型的本地?cái)?shù)據(jù)庫有Paradox、dBASE、FoxPro和ACCCSS。
數(shù)據(jù)采集(Data Acquisition,DAQ)
數(shù)據(jù)采集又稱數(shù)據(jù)獲取,將被測試對象的各種參量通過各種傳感器做適當(dāng)轉(zhuǎn)換后,再經(jīng)過信號調(diào)理、采樣、量化、編碼、傳輸?shù)炔襟E傳遞到控制器的過程。
數(shù)據(jù)采集的一般步驟:①用傳感器感受各種物理量,并把它們轉(zhuǎn)換成電信號;②通過A/D轉(zhuǎn)換,模擬量的數(shù)據(jù)轉(zhuǎn)變成數(shù)字量的數(shù)據(jù);③數(shù)據(jù)的記錄,打印輸出或存入磁盤文件。④生產(chǎn)廠商為該采集系統(tǒng)編制的專用程序,常用于大型專用系統(tǒng);⑤固化的采集程序,常用于小型專用系統(tǒng);⑥利用生產(chǎn)廠商提供的軟件工具,用戶自行編制的采集程序,主要用于組合式系統(tǒng)。
數(shù)據(jù)模型(data model)
數(shù)據(jù)模型是現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,用于描述一組數(shù)據(jù)的概念和定義。數(shù)據(jù)模型是數(shù)據(jù)庫中數(shù)據(jù)的存儲方式,是數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)。在數(shù)據(jù)庫中,數(shù)據(jù)的物理結(jié)構(gòu)又稱數(shù)據(jù)的存儲結(jié)構(gòu),就是數(shù)據(jù)元素在計(jì)算機(jī)存儲器中的表示及其配置;數(shù)據(jù)的邏輯結(jié)構(gòu)則是指數(shù)據(jù)元素之間的邏輯關(guān)系,它是數(shù)據(jù)在用戶或程序員面前的表現(xiàn)形式,數(shù)據(jù)的存儲結(jié)構(gòu)不一定與邏輯結(jié)構(gòu)一致。
數(shù)據(jù)整理(Data Cleansing)
數(shù)據(jù)整理是對調(diào)查、觀察、實(shí)驗(yàn)等研究活動中所搜集到的資料進(jìn)行檢驗(yàn)、歸類編碼和數(shù)字編碼的過程,是數(shù)據(jù)統(tǒng)計(jì)分析的基礎(chǔ)。
數(shù)據(jù)處理(Data Handling)
數(shù)據(jù)處理是指對數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進(jìn)行分析和加工的技術(shù)過程。也就是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸,將數(shù)據(jù)轉(zhuǎn)換為信息的過程。
數(shù)據(jù)壓縮(Data Compression)
數(shù)據(jù)壓縮是指在不丟失有用信息的前提下,縮減數(shù)據(jù)量以減少數(shù)據(jù)的存儲空間,提高其傳輸、存儲和處理效率,或按照一定的算法對數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲的空間的一種技術(shù)方法。
數(shù)據(jù)恢復(fù)(Data Recovery)
數(shù)據(jù)恢復(fù)是指通過技術(shù)手段,將保存在臺式機(jī)硬盤、筆記本硬盤、服務(wù)器硬盤、移動硬盤、U盤等等設(shè)備上由于各種原因?qū)е聯(lián)p傷或丟失的數(shù)據(jù)進(jìn)行搶救和恢復(fù)的技術(shù)。
數(shù)據(jù)集成(Data Integration)
數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。數(shù)據(jù)集成維護(hù)了數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率。
數(shù)據(jù)遷移(Data Migration)
數(shù)據(jù)遷移又稱分級存儲管理,是一種將離線存儲與在線存儲融合的技術(shù)。將高速、高容量的非在線存儲設(shè)備作為磁盤設(shè)備的下一級設(shè)備,將磁盤中常用的數(shù)據(jù)按指定策略自動遷移到磁帶庫等二級容量存儲設(shè)備上。當(dāng)需要使用這些數(shù)據(jù)時(shí),分級存儲系統(tǒng)會自動將這些數(shù)據(jù)從下一級存儲設(shè)備調(diào)回到上一級磁盤上。
數(shù)據(jù)冗余(Data Redundancy)
數(shù)據(jù)冗余是指同一個(gè)數(shù)據(jù)在系統(tǒng)中多次重復(fù)出現(xiàn)。消除數(shù)據(jù)冗余的目的是為了避免更新時(shí)可能出現(xiàn)的問題,以便保持?jǐn)?shù)據(jù)的一致性。
數(shù)據(jù)抽取
數(shù)據(jù)抽取是指從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)的過程。
網(wǎng)絡(luò)數(shù)據(jù)抽取 (Web data mining)
網(wǎng)絡(luò)數(shù)據(jù)抽取(Web data mining),是指從網(wǎng)絡(luò)中取得大量的又利用價(jià)值的數(shù)字化信息。主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Informationintegreation)和觀點(diǎn)挖掘(Opinion mining)等。
結(jié)構(gòu)化數(shù)據(jù)抽取的目標(biāo)是從Web頁面中抽取結(jié)構(gòu)化數(shù)據(jù)。這些結(jié)構(gòu)化數(shù)據(jù)往往存儲在后臺數(shù)據(jù)庫中,由網(wǎng)頁按一定格式承載著展示給用戶。例如論壇列表頁面、Blog頁面、搜索引擎結(jié)果頁面等。信息集成是針對結(jié)構(gòu)化數(shù)據(jù)而言,其目標(biāo)是將從不同網(wǎng)站中抽取出的數(shù)據(jù)統(tǒng)一化后集成入庫。其關(guān)鍵問題是如何從不同網(wǎng)站的數(shù)據(jù)表中識別出意義相同的數(shù)據(jù)并統(tǒng)一存儲。
數(shù)據(jù)標(biāo)準(zhǔn)化(data standardization)
數(shù)據(jù)標(biāo)準(zhǔn)化是指研究、制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級、記錄格式及轉(zhuǎn)換、編碼等技術(shù)標(biāo)準(zhǔn)的過程。
數(shù)據(jù)備份(Data Backup)
數(shù)據(jù)備份是容災(zāi)的基礎(chǔ),為防著系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全部或部分?jǐn)?shù)據(jù)集合從原來存儲的地方復(fù)制到其他地方的活動,將數(shù)據(jù)遭受破壞的程度減到最小。傳統(tǒng)的數(shù)據(jù)備份主要采用內(nèi)置或外置的磁帶機(jī)進(jìn)行冷備份。這種方式只能防止操作失誤等人為故障,其恢復(fù)時(shí)間也很長。現(xiàn)代企業(yè)采用網(wǎng)絡(luò)備份,通過專業(yè)的數(shù)據(jù)存儲管理軟件結(jié)合相應(yīng)硬件和存儲設(shè)備來實(shí)現(xiàn)備份。
1.完全備份(Full Backup)。優(yōu)點(diǎn)是當(dāng)發(fā)生數(shù)據(jù)丟失的災(zāi)難時(shí),可以迅速恢復(fù)丟失的數(shù)據(jù)。不足之處是每天都對整個(gè)系統(tǒng)進(jìn)行完全備份,造成備份的數(shù)據(jù)大量重復(fù)。
2.增量備份(Incremental Backup)。先實(shí)施一次完全備份,后續(xù)時(shí)間里只要對當(dāng)天的或修改過的數(shù)據(jù)進(jìn)行備份。優(yōu)點(diǎn):節(jié)省了磁盤空間,縮短了備份時(shí)間;缺點(diǎn)是數(shù)據(jù)恢復(fù)比較麻煩,備份的可靠性很差。
3.差分備份(Differential Backup)。先實(shí)施一次完全備份,再將當(dāng)天所有與備份不同的數(shù)據(jù)(新的或修改過的)備份到磁盤上。該策略避免了以上兩種策略缺陷的同時(shí),具備其所有優(yōu)點(diǎn)。首先,它無須每天都對系統(tǒng)做完全備份,所需的備份時(shí)間短,節(jié)省磁盤空間。其次,數(shù)據(jù)恢復(fù)方便。一旦發(fā)生問題,用戶只需使用完全備份和發(fā)生問題前一天的備份就可以將系統(tǒng)恢復(fù)。