拜網(wǎng)絡普及與科技進步之賜,大數(shù)據(jù)的熱潮越燒越烈,許多處理數(shù)據(jù)分析與管理的技術(shù)因應而出,迎來了大數(shù)據(jù)的時代。要能在這大數(shù)據(jù)市場中殺出一條血路,以下這 9 個必殺絕技你一定要學起來。
1) Apache Hadoop 黃色小象幫手
在上一篇文章《認識大數(shù)據(jù)的黃色小象幫手 –– Hadoop》里介紹了 Hadoop 的兩大核心功能 —— 儲存及處理數(shù)據(jù)所用到的分散式檔案系統(tǒng) HDFS 跟 MapReduce 平行運算架構(gòu)。
基于 Hadoop 處理大數(shù)據(jù)的種種優(yōu)勢,像是解決了檔案存放、系統(tǒng)擴張、數(shù)據(jù)處理及備份等問題,因此 Hadoop 被廣泛應用于大數(shù)據(jù)儲存和大數(shù)據(jù)分析,成為大數(shù)據(jù)的主流技術(shù)。
在近幾年內(nèi),叢集運算在商用性與非商用性的領域也越來越普遍且應用的相當廣泛,2014年無庸置疑成為了 Hadoop 的豐收年,對于 Hadoop 生態(tài)系例如 Flume, Oozie, Hive, Pig, HBase, YARN 等技能的市場需求也逐漸提高。
2) 大數(shù)據(jù)黑馬:Apache Spark
如果 Hadoop 是大數(shù)據(jù)市場里的老大哥,那 Spark 則是具有超凡潛力的一匹黑馬!
Spark 是一個用途廣泛的叢集運算引擎,簡單來說就是一個能讓原本使用 Hadoop 來處理及分析數(shù)據(jù)的系統(tǒng)快 10 到 100 倍的好工具。
由于 Hadoop 分析數(shù)據(jù)時需要將中間產(chǎn)生的數(shù)據(jù)存在硬碟中,因此會有讀寫數(shù)據(jù)的延遲問題;有別于 Hadoop 的 MapReduce 架構(gòu),Spark 使用了「記憶體內(nèi)運算技術(shù)(In-Memory Computing)」,能在數(shù)據(jù)尚未寫入硬碟時,就在記憶體內(nèi)進行分析運算,號稱比原先的 Hadoop 快 100 倍。
去年在數(shù)據(jù)排序基準競賽(Sort Benchmark Competition)中,Spark 用 23 分鐘完成 100 TB 的數(shù)據(jù)排序,刷新了原本由 Hadoop 保持的 72 分鐘世界記錄1。
3) 不只是 SQL:NoSQL
最近幾年網(wǎng)絡上的數(shù)據(jù)量開始快速大量成長、數(shù)據(jù)量與日遽增,為了解決數(shù)據(jù)庫在進行大量數(shù)據(jù)存取時,所衍生出效能、擴充、維護等問題,近年來業(yè)界紛紛舍棄了以結(jié)構(gòu)化查詢語言(SQL)為基礎的關聯(lián)式數(shù)據(jù)庫管理系統(tǒng)(RDBMS),改以 NoSQL 數(shù)據(jù)庫來提升效能與擴充彈性。
NoSQL 最早是指「No SQL」,號稱不使用 SQL 作為查詢語言的數(shù)據(jù)庫系統(tǒng)。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結(jié)合 SQL 優(yōu)點并混用關聯(lián)式數(shù)據(jù)庫和 NoSQL 數(shù)據(jù)庫來達成最佳的儲存效果。
在大數(shù)據(jù)所帶動的潮流下,各種不同形態(tài)的NoSQL數(shù)據(jù)庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 數(shù)據(jù)庫軟體中較為人熟知的一種。
4) 機器學習與數(shù)據(jù)處理超屌!
在大數(shù)據(jù)中如何摸索出數(shù)據(jù)所要表達的意涵、提煉出「數(shù)據(jù)精華」是非常重要的課題,于是「機器學習(Machine Learning)」與「數(shù)據(jù)處理(Data Mining)」成為了大數(shù)據(jù)時代中的重點領域。
機器學習可以從過去收集的數(shù)據(jù)與經(jīng)驗中,萃取出感興趣的部份,構(gòu)造出模型(Model)和規(guī)律(Pattern)當作我們參考的基準,對未來進行預測。應用機器學習的方法處理大量數(shù)據(jù)庫的數(shù)據(jù)則稱為「數(shù)據(jù)處理」(Data Mining),顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物處理、尋找有價值的礦脈,數(shù)據(jù)處理就是從大數(shù)據(jù)中提取出未知的、有價值的潛在資訊。
機器學習跟數(shù)據(jù)處理到底有多屌?LinkedIn 之前發(fā)表的 2014 年「最熱門工作技能」排行榜2,數(shù)據(jù)處理榮登排行榜第一名這樣屌。
5) 統(tǒng)計及量化分析
大數(shù)據(jù)時代,統(tǒng)計與數(shù)據(jù)分析是根本中的根本,數(shù)學跟統(tǒng)計學則是基礎中的基礎。數(shù)據(jù)專家或量化分析師的專業(yè)包含了統(tǒng)計學、電腦科學和數(shù)學,過去這些人才都搶著要進華爾街工作,但多虧了 帶來的風潮,現(xiàn)在各行各業(yè)都在尋找擁有量化分析、統(tǒng)計學背景的工程師、數(shù)據(jù)專家。
如果數(shù)學是你的拿手強項,基本上你已經(jīng)贏在起跑點了,接下來再學習市面上的一些數(shù)據(jù)分析軟體及程式語言,像是 R、SAS、Matlab、SPSS、Stata 等,具備了以上技能,相信要進大數(shù)據(jù)一行不成問題。
6) 結(jié)構(gòu)化查詢語言 SQL
結(jié)構(gòu)化查詢語言,簡稱 SQL,是專門用于關連式數(shù)據(jù)庫的一種查詢語言,可以用來定義數(shù)據(jù)庫結(jié)構(gòu)、建立表格、指定欄位型態(tài)與長度,也能新增、異動或查詢數(shù)據(jù)。簡單來說,SQL 是一種用來從數(shù)據(jù)庫讀取與儲存數(shù)據(jù)的電腦語言。
SQL 歷經(jīng)了四十多年的考驗仍然在蓬勃發(fā)展,雖然 NoSQL (上述第三點)的出現(xiàn)帶來了一些影響,但 SQL 仍然主導著市場,并在大數(shù)據(jù)領域贏得了很多投資與廣泛部屬。像是 Cloudera 推出了即時查詢開源工具 Impala –– 一款用來跑在 Hadoop 架構(gòu)上的互動 SQL 查詢引擎,在這些工具發(fā)展下 SQL 在大數(shù)據(jù)領域中更是歷久不衰。
7) 看圖說故事:數(shù)據(jù)視覺化
大數(shù)據(jù)的重要性與日俱增,不少企業(yè)如電子商務、零售業(yè)及半導體制造業(yè)等,開始廣泛運用大數(shù)據(jù)為公司擬定企業(yè)策略,不過并不是人人都是數(shù)據(jù)專家、數(shù)據(jù)科學家,如果要讓主管跟客戶們清楚了解數(shù)據(jù)背後的意義,那倒不如讓他們「一目了然」。
數(shù)據(jù)視覺化(Data Visualization)是關于數(shù)據(jù)之視覺表現(xiàn)形式的研究,數(shù)據(jù)視覺化的技術(shù)可以幫助不同背景的工程人員溝通、理解,以達良好的設計與分析結(jié)果。市面上已經(jīng)有許多工具、軟體為人們提供這方面的需求,像是Tableau、QlikView 等工具就擁有絕佳的視覺化呈現(xiàn)效果,可以不限數(shù)據(jù)量、數(shù)據(jù)形式或主題,透過圖像化和便捷的操作介面制作出客制化報表,無需撰寫程式就能得到分析結(jié)果。
8) 基本程序開發(fā)能力
市場分析機構(gòu) Wanted Analytics 公布的數(shù)據(jù)3中,具有數(shù)據(jù)分析背景的電腦程式開發(fā)人員職位正在逐年增加中,2014 年最後四個月就增加了 2000 個相關的新職缺,比起 2013 年同期多出了 337%!
因此,基本程序開發(fā)能力也是在這大數(shù)據(jù)市場中生存的必要條件之一,在數(shù)據(jù)科學界里,Java、C、Python、Scala 都是十分受歡迎的程式語言。
9) 創(chuàng)造力和問題解決能力
大數(shù)據(jù)的型態(tài)及發(fā)展會不斷的演化,無論你的程式開發(fā)能力有多好、精通多少項數(shù)據(jù)分析工具,要在大數(shù)據(jù)時代中活得好、長得壯,創(chuàng)造力(Creativity)和解決問題能力(Problem Solving)的重要性不可忽視,更是以上提到的工具跟技術(shù)都無法取代的必殺技!
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13765.html