摘要:2016年即將過(guò)去,各位大數(shù)據(jù)的程序員們,是否覺(jué)得這一年都不斷的追著新技術(shù)跑?這個(gè)大數(shù)據(jù)公眾號(hào)是今年一月底創(chuàng)立的,一年過(guò)去,我們積累了不少好內(nèi)容。
2016年即將過(guò)去,各位大數(shù)據(jù)的程序員們,是否覺(jué)得這一年都不斷的追著新技術(shù)跑?這個(gè)大數(shù)據(jù)公眾號(hào)是今年一月底創(chuàng)立的,一年過(guò)去,我們積累了不少好內(nèi)容。回過(guò)頭來(lái)我們看看這一年的腳印,這里我按照文章內(nèi)容做了一次匯總,分為:流處理、機(jī)器學(xué)習(xí)、用戶畫(huà)像、數(shù)據(jù)驅(qū)動(dòng)、Hadoop、Apache Spark、Apache Kylin、Druid、推薦系統(tǒng)和大數(shù)據(jù)平臺(tái)架構(gòu)。
流處理
2016年流式數(shù)據(jù)處理已逐漸開(kāi)始成為主流,對(duì)于流數(shù)據(jù)的處理存在很多技術(shù),即使在開(kāi)源社區(qū)中,也存在很多撲朔迷離的選擇。在大數(shù)據(jù)雜談里我們包含了一些優(yōu)秀的流處理文章,包括Kafka流,Spark流,Storm,F(xiàn)link,Samza等。
Apache Flink是今年新軍突起的流處理技術(shù),完全兼容Hadoop。Apache Flink與Apache Spark的主要差別在于計(jì)算模型不同。Spark采用了微批處理模型,而Flink采用了基于操作符的連續(xù)流模型。
大數(shù)據(jù)分析引擎Apache Flink: What, How, Why, Who, Where?
以Flink為例,消除流處理常見(jiàn)的六大謬見(jiàn)
LinkedIn在2010年開(kāi)發(fā)了Kafka,是Kafka的重度使用者,他們總結(jié)的經(jīng)驗(yàn)是非常有參考意義的。而“微服務(wù)架構(gòu):kafka的崛起”這篇文章詳盡的探討了在微服務(wù)架構(gòu)升級(jí)的過(guò)程中,如何使用Kafka將微服務(wù)之間耦合降到最低,同時(shí)能讓整個(gè)系統(tǒng)在保證高可用的前提下做到高可擴(kuò)展。
同時(shí)Samza也是LinkedIn研發(fā)的一款流處理器,下面的文章介紹了Samza在LinkedIn公司的應(yīng)用情況,Samza在流處理方面的優(yōu)勢(shì)、新特性以及下一步的規(guī)劃。
剖析Linkedln遭遇的Kafka“危機(jī)故障”
微服務(wù)架構(gòu)界的“網(wǎng)紅”來(lái)了——崛起的Kafka
LinkedIn開(kāi)源流處理器Samza的應(yīng)用場(chǎng)景、優(yōu)勢(shì)、新特性與未來(lái)規(guī)劃
下面這篇文章,集中比較了主流的流處理器的優(yōu)缺點(diǎn)。
實(shí)時(shí)流處理框架Storm、Spark Streaming、Samza、Flink,孰優(yōu)孰劣?!
下面是一些企業(yè)自研流處理架構(gòu)的情況。JMQ是京東自研的消息中間件,InfoQ前后發(fā)過(guò)兩篇文章來(lái)解析他們的中間件情況;另外我們也給出了一系列文章來(lái)說(shuō)明Yelp的數(shù)據(jù)管道,并且Yelp的數(shù)據(jù)管道剛剛宣布了開(kāi)源,大家可在Github上下載閱讀源碼。
京東消息中間件JMQ:架構(gòu),與Kafka的對(duì)比,主要特性和應(yīng)用場(chǎng)景
Facebook的實(shí)時(shí)流處理技術(shù)
Yelp的數(shù)據(jù)管道開(kāi)源了:ETL已死,實(shí)時(shí)流技術(shù)永生?
Kafka和Twitter新開(kāi)源的DistributedLog技術(shù)對(duì)比
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)經(jīng)過(guò)近年來(lái)的強(qiáng)勢(shì)生長(zhǎng)之后,很快地從一個(gè)很少被人關(guān)注的技術(shù)主題,轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ?。其有效性被無(wú)數(shù)企業(yè)成功驗(yàn)證和應(yīng)用,為了避免錯(cuò)失良機(jī),企業(yè)需要設(shè)計(jì)自己的機(jī)器學(xué)習(xí)項(xiàng)目,比如在電商平臺(tái)的推薦、排序業(yè)務(wù)中。在業(yè)務(wù)的多樣性大的時(shí)候企業(yè)就需要考慮將機(jī)器學(xué)習(xí)系統(tǒng)平臺(tái)化。對(duì)于學(xué)術(shù)界來(lái)說(shuō),學(xué)者們更希望機(jī)器學(xué)習(xí)平臺(tái)容易調(diào)試、靈活性要強(qiáng)、迭代要快;而對(duì)于工業(yè)界更看重的是平臺(tái)的穩(wěn)定性強(qiáng)、處理大數(shù)據(jù)量、容易進(jìn)行數(shù)據(jù)整合、高效率、低開(kāi)發(fā)成本等。
我們?cè)诖髷?shù)據(jù)雜談上實(shí)際上已經(jīng)積累了不少企業(yè)機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建的內(nèi)容,包括:騰訊的Angel,優(yōu)點(diǎn)是效率快于Spark幾十倍,支持維度達(dá)到十億;另外是阿里巴巴的參數(shù)服務(wù)器,講述了涉及理念以及在阿里的實(shí)際應(yīng)用;還有第四范式的先知平臺(tái),從系統(tǒng)和工程方面的優(yōu)化方向,在開(kāi)發(fā)平臺(tái)產(chǎn)品時(shí)的一些經(jīng)驗(yàn);還有就是TalkingData的Fregata,優(yōu)點(diǎn)第一是速度快,第二是算法無(wú)需調(diào)參或者調(diào)參相對(duì)簡(jiǎn)單。
騰訊大數(shù)據(jù)宣布開(kāi)源第三代高性能計(jì)算平臺(tái)Angel:支持十億維度
大規(guī)模大數(shù)據(jù)的有效利用,阿里巴巴參數(shù)服務(wù)器設(shè)計(jì)理念與實(shí)踐
為什么已有TensorFlow和Spark,第四范式還要開(kāi)發(fā)“先知”平臺(tái)?
]輕量級(jí)大規(guī)模機(jī)器學(xué)習(xí)算法庫(kù)Fregata開(kāi)源:快速,無(wú)需調(diào)參
下面兩篇文章講的是怎么將深度學(xué)習(xí)平臺(tái)應(yīng)用到企業(yè)生產(chǎn)環(huán)境中,這也是大名鼎鼎的兩個(gè)平臺(tái):Tensorflow和Deeplearning4j。
如何通過(guò)TensorFlow實(shí)現(xiàn)深度學(xué)習(xí)算法并運(yùn)用到企業(yè)實(shí)踐中
深度學(xué)習(xí)在Spark平臺(tái)上如何進(jìn)入生產(chǎn)環(huán)境
下面是各公司針對(duì)企業(yè)的業(yè)務(wù)利用機(jī)器學(xué)習(xí)來(lái)提高產(chǎn)品體驗(yàn)的一些經(jīng)驗(yàn)。依次是Twitter,1號(hào)店,攜程,搜狗,達(dá)觀數(shù)據(jù)。最后是一篇總結(jié)深度學(xué)習(xí)全球進(jìn)展和預(yù)測(cè)2017的文章。
Twitter機(jī)器學(xué)習(xí)平臺(tái)的設(shè)計(jì)與搭建
1號(hào)店11.11:機(jī)器排序?qū)W習(xí)在電商搜索中的實(shí)戰(zhàn)
想要愉快入住酒店?缺了它還真不行!
深度學(xué)習(xí)在搜狗無(wú)線搜索廣告中的應(yīng)用
海量數(shù)據(jù)挖掘最優(yōu)解?機(jī)器學(xué)習(xí)!
深度學(xué)習(xí):2016年的進(jìn)展綜述及2017年的預(yù)測(cè)
用戶畫(huà)像
“對(duì)企業(yè)而言,得用戶者得天下,能夠有一套科學(xué)的精準(zhǔn)營(yíng)銷、個(gè)性化推薦模型,無(wú)疑會(huì)促進(jìn)業(yè)務(wù)的增長(zhǎng);對(duì)開(kāi)發(fā)者而言,用戶畫(huà)像也是頻繁被提及的技術(shù),這樣可以根據(jù)目標(biāo)用戶的動(dòng)機(jī)和行為上進(jìn)行產(chǎn)品設(shè)計(jì),遠(yuǎn)遠(yuǎn)優(yōu)于為腦中虛構(gòu)的東西做設(shè)計(jì)。”
這里有來(lái)自去哪兒、TalkingData、FreeWheel、百分點(diǎn)、天云大數(shù)據(jù)的5篇優(yōu)質(zhì)內(nèi)容教你如何設(shè)計(jì)精準(zhǔn)的用戶畫(huà)像產(chǎn)品。
Qunar用戶畫(huà)像構(gòu)建策略及應(yīng)用實(shí)踐
40億移動(dòng)設(shè)備的用戶畫(huà)像和標(biāo)簽架構(gòu)實(shí)踐
廣告平臺(tái)中用戶畫(huà)像和標(biāo)注噪聲處理的實(shí)踐
百分點(diǎn)蘇海波博士:為什么你做的用戶畫(huà)像模型不精準(zhǔn)?
用戶畫(huà)像不應(yīng)脫離社會(huì)關(guān)系,談復(fù)雜網(wǎng)絡(luò)的關(guān)鍵技術(shù)和應(yīng)用實(shí)踐
數(shù)據(jù)驅(qū)動(dòng)
講大數(shù)據(jù)離不開(kāi)數(shù)據(jù)驅(qū)動(dòng)。數(shù)據(jù)驅(qū)動(dòng)相關(guān)案例分別來(lái)自鏈家網(wǎng)、諸葛io、LinkedIn和滴滴。
數(shù)據(jù)驅(qū)動(dòng)在鏈家網(wǎng)搜索優(yōu)化與推薦策略中的實(shí)踐
基于Spark的用戶行為路徑分析的產(chǎn)品化實(shí)踐
4億用戶的LinkedIn數(shù)據(jù)產(chǎn)品設(shè)計(jì)原則和架構(gòu)實(shí)現(xiàn)
數(shù)據(jù)驅(qū)動(dòng)管理竟成滴滴獲10億美元投資的最大黑手?
Hadoop
今年1月,Hadoop過(guò)上了10歲生日,我也在年初策劃了Hadoop十年的專欄,共約了十篇稿件,Cloudera的陳飚老師的文章在這一年中流傳甚廣,非常值得一看。另外InfoQ將這十篇文章集中到一起,做成了《架構(gòu)師特刊:Hadoop十年回顧》的電子書(shū)分享給了大家,有興趣可以下載下來(lái)讀一讀,將對(duì)Hadoop生態(tài)形成非常好的理解。在這里再次對(duì)十位作者老師表示謝意,謝謝大家的無(wú)私分享!
深度 | 資深架構(gòu)師教你一篇文看懂Hadoop
《架構(gòu)師特刊:Hadoop十年回顧》迷你書(shū)免費(fèi)下載
Apache Spark
在2016年,Spark迎來(lái)了最近兩年的一個(gè)最大的版本的發(fā)布:Spark 2.0。但是在Spark上我做的工作并不夠,原本很想做個(gè)很好的專題,但是屢屢碰壁之后只能罷了,畢竟對(duì)于Spark開(kāi)發(fā)者來(lái)說(shuō),這么大熱的一年,任何實(shí)踐都足夠上沙龍和大會(huì)。
關(guān)鍵七步,用Apache Spark構(gòu)建實(shí)時(shí)分析Dashboard
Spark在GrowingIO數(shù)據(jù)無(wú)埋點(diǎn)全量采集場(chǎng)景下的實(shí)踐
是時(shí)候了解一些Spark生態(tài)系統(tǒng)中的圖數(shù)據(jù)分析知識(shí)了
以Python為例,教你Spark 應(yīng)用開(kāi)發(fā)
Apache Kyline
Bay的大數(shù)據(jù)OLAP框架Kylin項(xiàng)目一經(jīng)開(kāi)源,即獲得了業(yè)界眾多的稱贊,并被邀請(qǐng)加入Apache軟件基金會(huì)的孵化項(xiàng)目,在2014年11月,正式經(jīng)投票加入了Apache大家庭,項(xiàng)目名字也改成了“Apache Kylin”。
InfoQ在Kylin開(kāi)源的一開(kāi)始就持續(xù)關(guān)注這個(gè)項(xiàng)目,分享了很多的案例,促進(jìn)了Kylin社區(qū)的進(jìn)一步發(fā)展。這些內(nèi)容我們也集中到了電子書(shū)中:《架構(gòu)師特刊:Apache Kylin實(shí)踐》。
Apache Kylin發(fā)布新版流處理引擎
使用超大規(guī)模數(shù)據(jù)分析技術(shù)支持大數(shù)據(jù)預(yù)測(cè)
Apache Kylin在電信運(yùn)營(yíng)商的實(shí)踐和案例分享
Apache Kylin在美團(tuán)數(shù)十億數(shù)據(jù)OLAP場(chǎng)景下的實(shí)踐
漲姿勢(shì):百度地圖的工程師都是如何利用Apache Kylin處理數(shù)據(jù)的
Apache Kylin企業(yè)實(shí)踐,電子書(shū)免費(fèi)下載!
Druid
Druid作為一個(gè)大數(shù)據(jù)的OLAP系統(tǒng),在這一年里收獲了很多的關(guān)注。國(guó)內(nèi)也有了Druid中文社區(qū),組織了好幾次Druid Meetup。
PB級(jí)數(shù)據(jù)快速聚合查詢,Druid和Caravel在去哪兒大住宿的實(shí)踐
驅(qū)動(dòng)海量大數(shù)據(jù)實(shí)時(shí)多維分析,優(yōu)酷為什么會(huì)選擇Druid?
推薦系統(tǒng)
推薦系統(tǒng)部分有百分點(diǎn)、京東、達(dá)觀數(shù)據(jù)的企業(yè)實(shí)踐,也有解說(shuō)播客和博客的推薦系統(tǒng)原理和實(shí)踐的文章。還有一篇最新的推薦系統(tǒng)進(jìn)展,Youtube的大規(guī)模推薦系統(tǒng)。
最后也同樣奉上兩本電子書(shū):《推薦系統(tǒng):理論篇》和《推薦系統(tǒng):實(shí)踐篇》。
百分點(diǎn)億級(jí)個(gè)性化推薦系統(tǒng)的發(fā)展歷程和實(shí)踐架構(gòu)
京東618智能賣場(chǎng):個(gè)性化技術(shù)在大促會(huì)場(chǎng)上的實(shí)踐
推薦系統(tǒng)實(shí)踐與優(yōu)化
如何基于用戶歷史行為進(jìn)行精準(zhǔn)個(gè)性化推薦
三周時(shí)間,搭建一個(gè)產(chǎn)品級(jí)的播客podcast推薦系統(tǒng)實(shí)踐解析
博客推薦系統(tǒng):防過(guò)載又創(chuàng)價(jià)值
用一個(gè)大家都懂的方式來(lái)聊聊YouTube基于深度神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)
想抓住用戶的心思?《推薦系統(tǒng)(理論篇)》免費(fèi)電子書(shū)下載!
架構(gòu)師必讀:《推薦系統(tǒng)(實(shí)踐)》免費(fèi)電子書(shū)下載!
大數(shù)據(jù)平臺(tái)與數(shù)據(jù)挖掘?qū)嵺`
數(shù)據(jù)平臺(tái)部分積攢的內(nèi)容也非常多:攜程、去哪兒、百分點(diǎn)、諸葛io、騰訊、挖財(cái)、有贊、鏈家網(wǎng)、美團(tuán)、卷皮、達(dá)觀數(shù)據(jù)和明略數(shù)據(jù)。
攜程大數(shù)據(jù)實(shí)時(shí)風(fēng)控的架構(gòu)及實(shí)踐
去哪兒網(wǎng)支付系統(tǒng)架構(gòu)演進(jìn)
如何針對(duì)技術(shù)和業(yè)務(wù)人員痛點(diǎn),搭建標(biāo)準(zhǔn)智能數(shù)據(jù)平臺(tái)?
大數(shù)據(jù)平臺(tái)變革浪潮中,這家初創(chuàng)公司積累的值得借鑒的業(yè)務(wù)架構(gòu)實(shí)踐經(jīng)驗(yàn)
騰訊億級(jí)排行榜系統(tǒng)實(shí)踐及挑戰(zhàn)
挖財(cái)基于大數(shù)據(jù)的信貸審批系統(tǒng)實(shí)踐
用Elasticsearch構(gòu)建電商搜索平臺(tái),一個(gè)極有代表性的基礎(chǔ)技術(shù)架構(gòu)和算法實(shí)踐案例
房源推薦、房屋估價(jià)、經(jīng)紀(jì)人畫(huà)像...,鏈家如何利用數(shù)據(jù)挖掘技術(shù)服務(wù)房地產(chǎn)?
攜程基于Storm的實(shí)時(shí)大數(shù)據(jù)平臺(tái)實(shí)踐
美團(tuán)大數(shù)據(jù)平臺(tái)架構(gòu)實(shí)踐 [ 文章 + 視頻 ]
從搭臺(tái)到唱戲,電商卷皮BI的實(shí)踐演進(jìn)和架構(gòu)體系
從Storm到Heron,Twitter的實(shí)時(shí)計(jì)算框架有哪些重大進(jìn)化?
如何建立完整可用的安全大數(shù)據(jù)平臺(tái)
達(dá)觀數(shù)據(jù)分析平臺(tái)架構(gòu)和Hive實(shí)踐
一線專家談?wù)劊簲?shù)據(jù)挖掘在實(shí)際領(lǐng)域中的那些事兒
這5種必知的大數(shù)據(jù)處理框架技術(shù),你的項(xiàng)目到底應(yīng)該使用其中的哪幾種
數(shù)據(jù)庫(kù)
大數(shù)據(jù)少不了數(shù)據(jù)存儲(chǔ),推薦大家再看看第一篇黃東旭老師的開(kāi)源數(shù)據(jù)庫(kù)現(xiàn)狀。
一篇文章,掌握所有開(kāi)源數(shù)據(jù)庫(kù)的現(xiàn)狀
如何在不增加投入的情況下讓你的數(shù)據(jù)庫(kù)快上200倍
GPU高速查詢統(tǒng)計(jì)和典型場(chǎng)景:從“小時(shí)”到“毫秒”級(jí)的進(jìn)化
一文掌握云數(shù)據(jù)庫(kù)現(xiàn)狀與前沿技術(shù)
怎樣打造一個(gè)分布式數(shù)據(jù)庫(kù) | 數(shù)據(jù)庫(kù)功能深度解析
MongoDB在58同城百億量級(jí)數(shù)據(jù)下的應(yīng)用實(shí)踐
10億級(jí)流數(shù)據(jù)交互查詢,為什么拋棄MySQL選擇VoltDB?
優(yōu)酷土豆的Redis服務(wù)平臺(tái)化之路
分布式MySQL集群方案,看看京東是怎么做的
知識(shí)圖譜
LinkedIn知識(shí)圖譜的構(gòu)建與實(shí)踐
企業(yè)級(jí)大數(shù)據(jù)知識(shí)圖譜產(chǎn)品構(gòu)建與應(yīng)用