午夜看片,2020国内精品自在自线

2016年大數(shù)據(jù)80篇爆款文章：這一年你追過(guò)的那些技術(shù)

責(zé)任編輯：editor004

2016-12-27 10:53:10

摘自：大數(shù)據(jù)雜談

　這里有來(lái)自去哪兒、TalkingData、FreeWheel、百分點(diǎn)、天云大數(shù)據(jù)的5篇優(yōu)質(zhì)內(nèi)容教你如何設(shè)計(jì)精準(zhǔn)的用戶畫(huà)像產(chǎn)品。大數(shù)據(jù)平臺(tái)變革浪潮中，這家初創(chuàng)公司積累的值得借鑒的業(yè)務(wù)架構(gòu)實(shí)踐經(jīng)驗(yàn)　

摘要：2016年即將過(guò)去，各位大數(shù)據(jù)的程序員們，是否覺(jué)得這一年都不斷的追著新技術(shù)跑?這個(gè)大數(shù)據(jù)公眾號(hào)是今年一月底創(chuàng)立的，一年過(guò)去，我們積累了不少好內(nèi)容。

2016年即將過(guò)去，各位大數(shù)據(jù)的程序員們，是否覺(jué)得這一年都不斷的追著新技術(shù)跑?這個(gè)大數(shù)據(jù)公眾號(hào)是今年一月底創(chuàng)立的，一年過(guò)去，我們積累了不少好內(nèi)容。回過(guò)頭來(lái)我們看看這一年的腳印，這里我按照文章內(nèi)容做了一次匯總，分為：流處理、機(jī)器學(xué)習(xí)、用戶畫(huà)像、數(shù)據(jù)驅(qū)動(dòng)、Hadoop、Apache Spark、Apache Kylin、Druid、推薦系統(tǒng)和大數(shù)據(jù)平臺(tái)架構(gòu)。

大數(shù)據(jù)

　　流處理

2016年流式數(shù)據(jù)處理已逐漸開(kāi)始成為主流，對(duì)于流數(shù)據(jù)的處理存在很多技術(shù)，即使在開(kāi)源社區(qū)中，也存在很多撲朔迷離的選擇。在大數(shù)據(jù)雜談里我們包含了一些優(yōu)秀的流處理文章，包括Kafka流，Spark流，Storm，F(xiàn)link，Samza等。

Apache Flink是今年新軍突起的流處理技術(shù)，完全兼容Hadoop。Apache Flink與Apache Spark的主要差別在于計(jì)算模型不同。Spark采用了微批處理模型，而Flink采用了基于操作符的連續(xù)流模型。

大數(shù)據(jù)分析引擎Apache Flink: What, How, Why, Who, Where?

以Flink為例，消除流處理常見(jiàn)的六大謬見(jiàn)

LinkedIn在2010年開(kāi)發(fā)了Kafka，是Kafka的重度使用者，他們總結(jié)的經(jīng)驗(yàn)是非常有參考意義的。而“微服務(wù)架構(gòu)：kafka的崛起”這篇文章詳盡的探討了在微服務(wù)架構(gòu)升級(jí)的過(guò)程中，如何使用Kafka將微服務(wù)之間耦合降到最低，同時(shí)能讓整個(gè)系統(tǒng)在保證高可用的前提下做到高可擴(kuò)展。

同時(shí)Samza也是LinkedIn研發(fā)的一款流處理器，下面的文章介紹了Samza在LinkedIn公司的應(yīng)用情況，Samza在流處理方面的優(yōu)勢(shì)、新特性以及下一步的規(guī)劃。

剖析Linkedln遭遇的Kafka“危機(jī)故障”

微服務(wù)架構(gòu)界的“網(wǎng)紅”來(lái)了——崛起的Kafka

LinkedIn開(kāi)源流處理器Samza的應(yīng)用場(chǎng)景、優(yōu)勢(shì)、新特性與未來(lái)規(guī)劃

下面這篇文章，集中比較了主流的流處理器的優(yōu)缺點(diǎn)。

實(shí)時(shí)流處理框架Storm、Spark Streaming、Samza、Flink，孰優(yōu)孰劣?!

下面是一些企業(yè)自研流處理架構(gòu)的情況。JMQ是京東自研的消息中間件，InfoQ前后發(fā)過(guò)兩篇文章來(lái)解析他們的中間件情況;另外我們也給出了一系列文章來(lái)說(shuō)明Yelp的數(shù)據(jù)管道，并且Yelp的數(shù)據(jù)管道剛剛宣布了開(kāi)源，大家可在Github上下載閱讀源碼。

京東消息中間件JMQ：架構(gòu)，與Kafka的對(duì)比，主要特性和應(yīng)用場(chǎng)景

Facebook的實(shí)時(shí)流處理技術(shù)

Yelp的數(shù)據(jù)管道開(kāi)源了：ETL已死，實(shí)時(shí)流技術(shù)永生?

Kafka和Twitter新開(kāi)源的DistributedLog技術(shù)對(duì)比

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)經(jīng)過(guò)近年來(lái)的強(qiáng)勢(shì)生長(zhǎng)之后，很快地從一個(gè)很少被人關(guān)注的技術(shù)主題，轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ?。其有效性被無(wú)數(shù)企業(yè)成功驗(yàn)證和應(yīng)用，為了避免錯(cuò)失良機(jī)，企業(yè)需要設(shè)計(jì)自己的機(jī)器學(xué)習(xí)項(xiàng)目，比如在電商平臺(tái)的推薦、排序業(yè)務(wù)中。在業(yè)務(wù)的多樣性大的時(shí)候企業(yè)就需要考慮將機(jī)器學(xué)習(xí)系統(tǒng)平臺(tái)化。對(duì)于學(xué)術(shù)界來(lái)說(shuō)，學(xué)者們更希望機(jī)器學(xué)習(xí)平臺(tái)容易調(diào)試、靈活性要強(qiáng)、迭代要快;而對(duì)于工業(yè)界更看重的是平臺(tái)的穩(wěn)定性強(qiáng)、處理大數(shù)據(jù)量、容易進(jìn)行數(shù)據(jù)整合、高效率、低開(kāi)發(fā)成本等。

我們?cè)诖髷?shù)據(jù)雜談上實(shí)際上已經(jīng)積累了不少企業(yè)機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建的內(nèi)容，包括：騰訊的Angel，優(yōu)點(diǎn)是效率快于Spark幾十倍，支持維度達(dá)到十億;另外是阿里巴巴的參數(shù)服務(wù)器，講述了涉及理念以及在阿里的實(shí)際應(yīng)用;還有第四范式的先知平臺(tái)，從系統(tǒng)和工程方面的優(yōu)化方向，在開(kāi)發(fā)平臺(tái)產(chǎn)品時(shí)的一些經(jīng)驗(yàn);還有就是TalkingData的Fregata，優(yōu)點(diǎn)第一是速度快，第二是算法無(wú)需調(diào)參或者調(diào)參相對(duì)簡(jiǎn)單。

騰訊大數(shù)據(jù)宣布開(kāi)源第三代高性能計(jì)算平臺(tái)Angel：支持十億維度

大規(guī)模大數(shù)據(jù)的有效利用，阿里巴巴參數(shù)服務(wù)器設(shè)計(jì)理念與實(shí)踐

為什么已有TensorFlow和Spark，第四范式還要開(kāi)發(fā)“先知”平臺(tái)?

]輕量級(jí)大規(guī)模機(jī)器學(xué)習(xí)算法庫(kù)Fregata開(kāi)源：快速，無(wú)需調(diào)參

下面兩篇文章講的是怎么將深度學(xué)習(xí)平臺(tái)應(yīng)用到企業(yè)生產(chǎn)環(huán)境中，這也是大名鼎鼎的兩個(gè)平臺(tái)：Tensorflow和Deeplearning4j。

如何通過(guò)TensorFlow實(shí)現(xiàn)深度學(xué)習(xí)算法并運(yùn)用到企業(yè)實(shí)踐中

深度學(xué)習(xí)在Spark平臺(tái)上如何進(jìn)入生產(chǎn)環(huán)境

下面是各公司針對(duì)企業(yè)的業(yè)務(wù)利用機(jī)器學(xué)習(xí)來(lái)提高產(chǎn)品體驗(yàn)的一些經(jīng)驗(yàn)。依次是Twitter，1號(hào)店，攜程，搜狗，達(dá)觀數(shù)據(jù)。最后是一篇總結(jié)深度學(xué)習(xí)全球進(jìn)展和預(yù)測(cè)2017的文章。

Twitter機(jī)器學(xué)習(xí)平臺(tái)的設(shè)計(jì)與搭建

1號(hào)店11.11：機(jī)器排序?qū)W習(xí)在電商搜索中的實(shí)戰(zhàn)

想要愉快入住酒店?缺了它還真不行!

深度學(xué)習(xí)在搜狗無(wú)線搜索廣告中的應(yīng)用

海量數(shù)據(jù)挖掘最優(yōu)解?機(jī)器學(xué)習(xí)!

深度學(xué)習(xí)：2016年的進(jìn)展綜述及2017年的預(yù)測(cè)

用戶畫(huà)像

“對(duì)企業(yè)而言，得用戶者得天下，能夠有一套科學(xué)的精準(zhǔn)營(yíng)銷、個(gè)性化推薦模型，無(wú)疑會(huì)促進(jìn)業(yè)務(wù)的增長(zhǎng);對(duì)開(kāi)發(fā)者而言，用戶畫(huà)像也是頻繁被提及的技術(shù)，這樣可以根據(jù)目標(biāo)用戶的動(dòng)機(jī)和行為上進(jìn)行產(chǎn)品設(shè)計(jì)，遠(yuǎn)遠(yuǎn)優(yōu)于為腦中虛構(gòu)的東西做設(shè)計(jì)。”

這里有來(lái)自去哪兒、TalkingData、FreeWheel、百分點(diǎn)、天云大數(shù)據(jù)的5篇優(yōu)質(zhì)內(nèi)容教你如何設(shè)計(jì)精準(zhǔn)的用戶畫(huà)像產(chǎn)品。

Qunar用戶畫(huà)像構(gòu)建策略及應(yīng)用實(shí)踐

40億移動(dòng)設(shè)備的用戶畫(huà)像和標(biāo)簽架構(gòu)實(shí)踐

廣告平臺(tái)中用戶畫(huà)像和標(biāo)注噪聲處理的實(shí)踐

百分點(diǎn)蘇海波博士：為什么你做的用戶畫(huà)像模型不精準(zhǔn)?

用戶畫(huà)像不應(yīng)脫離社會(huì)關(guān)系，談復(fù)雜網(wǎng)絡(luò)的關(guān)鍵技術(shù)和應(yīng)用實(shí)踐

數(shù)據(jù)驅(qū)動(dòng)

講大數(shù)據(jù)離不開(kāi)數(shù)據(jù)驅(qū)動(dòng)。數(shù)據(jù)驅(qū)動(dòng)相關(guān)案例分別來(lái)自鏈家網(wǎng)、諸葛io、LinkedIn和滴滴。

數(shù)據(jù)驅(qū)動(dòng)在鏈家網(wǎng)搜索優(yōu)化與推薦策略中的實(shí)踐

基于Spark的用戶行為路徑分析的產(chǎn)品化實(shí)踐

4億用戶的LinkedIn數(shù)據(jù)產(chǎn)品設(shè)計(jì)原則和架構(gòu)實(shí)現(xiàn)

數(shù)據(jù)驅(qū)動(dòng)管理竟成滴滴獲10億美元投資的最大黑手?

Hadoop

今年1月，Hadoop過(guò)上了10歲生日，我也在年初策劃了Hadoop十年的專欄，共約了十篇稿件，Cloudera的陳飚老師的文章在這一年中流傳甚廣，非常值得一看。另外InfoQ將這十篇文章集中到一起，做成了《架構(gòu)師特刊：Hadoop十年回顧》的電子書(shū)分享給了大家，有興趣可以下載下來(lái)讀一讀，將對(duì)Hadoop生態(tài)形成非常好的理解。在這里再次對(duì)十位作者老師表示謝意，謝謝大家的無(wú)私分享!

深度 | 資深架構(gòu)師教你一篇文看懂Hadoop

《架構(gòu)師特刊：Hadoop十年回顧》迷你書(shū)免費(fèi)下載

Apache Spark

在2016年，Spark迎來(lái)了最近兩年的一個(gè)最大的版本的發(fā)布：Spark 2.0。但是在Spark上我做的工作并不夠，原本很想做個(gè)很好的專題，但是屢屢碰壁之后只能罷了，畢竟對(duì)于Spark開(kāi)發(fā)者來(lái)說(shuō)，這么大熱的一年，任何實(shí)踐都足夠上沙龍和大會(huì)。

關(guān)鍵七步，用Apache Spark構(gòu)建實(shí)時(shí)分析Dashboard

Spark在GrowingIO數(shù)據(jù)無(wú)埋點(diǎn)全量采集場(chǎng)景下的實(shí)踐

是時(shí)候了解一些Spark生態(tài)系統(tǒng)中的圖數(shù)據(jù)分析知識(shí)了

以Python為例，教你Spark 應(yīng)用開(kāi)發(fā)

Apache Kyline

Bay的大數(shù)據(jù)OLAP框架Kylin項(xiàng)目一經(jīng)開(kāi)源，即獲得了業(yè)界眾多的稱贊，并被邀請(qǐng)加入Apache軟件基金會(huì)的孵化項(xiàng)目，在2014年11月，正式經(jīng)投票加入了Apache大家庭，項(xiàng)目名字也改成了“Apache Kylin”。

InfoQ在Kylin開(kāi)源的一開(kāi)始就持續(xù)關(guān)注這個(gè)項(xiàng)目，分享了很多的案例，促進(jìn)了Kylin社區(qū)的進(jìn)一步發(fā)展。這些內(nèi)容我們也集中到了電子書(shū)中：《架構(gòu)師特刊：Apache Kylin實(shí)踐》。

Apache Kylin發(fā)布新版流處理引擎

使用超大規(guī)模數(shù)據(jù)分析技術(shù)支持大數(shù)據(jù)預(yù)測(cè)

Apache Kylin在電信運(yùn)營(yíng)商的實(shí)踐和案例分享

Apache Kylin在美團(tuán)數(shù)十億數(shù)據(jù)OLAP場(chǎng)景下的實(shí)踐

漲姿勢(shì)：百度地圖的工程師都是如何利用Apache Kylin處理數(shù)據(jù)的

Apache Kylin企業(yè)實(shí)踐，電子書(shū)免費(fèi)下載!

Druid

Druid作為一個(gè)大數(shù)據(jù)的OLAP系統(tǒng)，在這一年里收獲了很多的關(guān)注。國(guó)內(nèi)也有了Druid中文社區(qū)，組織了好幾次Druid Meetup。

PB級(jí)數(shù)據(jù)快速聚合查詢，Druid和Caravel在去哪兒大住宿的實(shí)踐

驅(qū)動(dòng)海量大數(shù)據(jù)實(shí)時(shí)多維分析，優(yōu)酷為什么會(huì)選擇Druid?

推薦系統(tǒng)

推薦系統(tǒng)部分有百分點(diǎn)、京東、達(dá)觀數(shù)據(jù)的企業(yè)實(shí)踐，也有解說(shuō)播客和博客的推薦系統(tǒng)原理和實(shí)踐的文章。還有一篇最新的推薦系統(tǒng)進(jìn)展，Youtube的大規(guī)模推薦系統(tǒng)。

最后也同樣奉上兩本電子書(shū)：《推薦系統(tǒng)：理論篇》和《推薦系統(tǒng)：實(shí)踐篇》。

百分點(diǎn)億級(jí)個(gè)性化推薦系統(tǒng)的發(fā)展歷程和實(shí)踐架構(gòu)

京東618智能賣場(chǎng)：個(gè)性化技術(shù)在大促會(huì)場(chǎng)上的實(shí)踐

推薦系統(tǒng)實(shí)踐與優(yōu)化

如何基于用戶歷史行為進(jìn)行精準(zhǔn)個(gè)性化推薦

三周時(shí)間，搭建一個(gè)產(chǎn)品級(jí)的播客podcast推薦系統(tǒng)實(shí)踐解析

博客推薦系統(tǒng)：防過(guò)載又創(chuàng)價(jià)值

用一個(gè)大家都懂的方式來(lái)聊聊YouTube基于深度神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)

想抓住用戶的心思?《推薦系統(tǒng)(理論篇)》免費(fèi)電子書(shū)下載!

架構(gòu)師必讀：《推薦系統(tǒng)(實(shí)踐)》免費(fèi)電子書(shū)下載!

大數(shù)據(jù)平臺(tái)與數(shù)據(jù)挖掘?qū)嵺`

數(shù)據(jù)平臺(tái)部分積攢的內(nèi)容也非常多：攜程、去哪兒、百分點(diǎn)、諸葛io、騰訊、挖財(cái)、有贊、鏈家網(wǎng)、美團(tuán)、卷皮、達(dá)觀數(shù)據(jù)和明略數(shù)據(jù)。

攜程大數(shù)據(jù)實(shí)時(shí)風(fēng)控的架構(gòu)及實(shí)踐

去哪兒網(wǎng)支付系統(tǒng)架構(gòu)演進(jìn)

如何針對(duì)技術(shù)和業(yè)務(wù)人員痛點(diǎn)，搭建標(biāo)準(zhǔn)智能數(shù)據(jù)平臺(tái)?

大數(shù)據(jù)平臺(tái)變革浪潮中，這家初創(chuàng)公司積累的值得借鑒的業(yè)務(wù)架構(gòu)實(shí)踐經(jīng)驗(yàn)

騰訊億級(jí)排行榜系統(tǒng)實(shí)踐及挑戰(zhàn)

挖財(cái)基于大數(shù)據(jù)的信貸審批系統(tǒng)實(shí)踐

用Elasticsearch構(gòu)建電商搜索平臺(tái)，一個(gè)極有代表性的基礎(chǔ)技術(shù)架構(gòu)和算法實(shí)踐案例

房源推薦、房屋估價(jià)、經(jīng)紀(jì)人畫(huà)像...，鏈家如何利用數(shù)據(jù)挖掘技術(shù)服務(wù)房地產(chǎn)?

攜程基于Storm的實(shí)時(shí)大數(shù)據(jù)平臺(tái)實(shí)踐

美團(tuán)大數(shù)據(jù)平臺(tái)架構(gòu)實(shí)踐 [ 文章 + 視頻 ]

從搭臺(tái)到唱戲，電商卷皮BI的實(shí)踐演進(jìn)和架構(gòu)體系

從Storm到Heron,Twitter的實(shí)時(shí)計(jì)算框架有哪些重大進(jìn)化?

如何建立完整可用的安全大數(shù)據(jù)平臺(tái)

達(dá)觀數(shù)據(jù)分析平臺(tái)架構(gòu)和Hive實(shí)踐

一線專家談?wù)劊簲?shù)據(jù)挖掘在實(shí)際領(lǐng)域中的那些事兒

這5種必知的大數(shù)據(jù)處理框架技術(shù)，你的項(xiàng)目到底應(yīng)該使用其中的哪幾種

數(shù)據(jù)庫(kù)

大數(shù)據(jù)少不了數(shù)據(jù)存儲(chǔ)，推薦大家再看看第一篇黃東旭老師的開(kāi)源數(shù)據(jù)庫(kù)現(xiàn)狀。

一篇文章，掌握所有開(kāi)源數(shù)據(jù)庫(kù)的現(xiàn)狀

如何在不增加投入的情況下讓你的數(shù)據(jù)庫(kù)快上200倍

GPU高速查詢統(tǒng)計(jì)和典型場(chǎng)景：從“小時(shí)”到“毫秒”級(jí)的進(jìn)化

一文掌握云數(shù)據(jù)庫(kù)現(xiàn)狀與前沿技術(shù)

怎樣打造一個(gè)分布式數(shù)據(jù)庫(kù) | 數(shù)據(jù)庫(kù)功能深度解析

MongoDB在58同城百億量級(jí)數(shù)據(jù)下的應(yīng)用實(shí)踐

10億級(jí)流數(shù)據(jù)交互查詢，為什么拋棄MySQL選擇VoltDB?

優(yōu)酷土豆的Redis服務(wù)平臺(tái)化之路

分布式MySQL集群方案，看看京東是怎么做的

知識(shí)圖譜

LinkedIn知識(shí)圖譜的構(gòu)建與實(shí)踐

企業(yè)級(jí)大數(shù)據(jù)知識(shí)圖譜產(chǎn)品構(gòu)建與應(yīng)用

Druid 數(shù)據(jù)平臺(tái)

熱門專題

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

破內(nèi)卷“出?！眲?shì)在必行數(shù)字化為全球業(yè)務(wù)保駕護(hù)航

破內(nèi)卷“出?！眲?shì)在必行，數(shù)字化為全球業(yè)務(wù)保駕護(hù)航

邊緣創(chuàng)新數(shù)智向?qū)?/p> 2023英特爾智能邊緣行業(yè)應(yīng)用巡展·智慧協(xié)同站

高端訪談

國(guó)藥國(guó)際CIO馮偉：數(shù)字化轉(zhuǎn)型要打破信息化建系統(tǒng)的固有思維

中國(guó)國(guó)際醫(yī)藥衛(wèi)生有限公司數(shù)智化中心總經(jīng)理馮偉在接受企業(yè)網(wǎng)D1Net專訪時(shí)提到：“回過(guò)頭來(lái)看，數(shù)智化建設(shè)最難的是轉(zhuǎn)思維，必須打破信息化總想去建系統(tǒng)的固有思維，要以平臺(tái)化思維、站在運(yùn)營(yíng)和業(yè)務(wù)的角度思考問(wèn)題。思維轉(zhuǎn)變后，很多問(wèn)題將迎刃而解?！?/span>

創(chuàng)維集團(tuán)信息總監(jiān)寧江：數(shù)據(jù)治理是數(shù)字化轉(zhuǎn)型的必由之路

創(chuàng)維集團(tuán)信息總監(jiān)寧江在接受企業(yè)網(wǎng)D1Net采訪時(shí)提到：“如今，站在數(shù)字化轉(zhuǎn)型的全局之下回顧過(guò)去幾十年的信息化建設(shè)，似乎建了很多煙囪，系統(tǒng)之間、流程之間不能共享數(shù)據(jù)，孤島林立。不同時(shí)期有不同時(shí)期的特征，都有其合理性和必要性，如今再來(lái)解決這些問(wèn)題為時(shí)未晚。

海爾智家技術(shù)總監(jiān)高麗：云原生加速企業(yè)數(shù)字化轉(zhuǎn)型

海爾智家全球數(shù)字化平臺(tái)用到了哪些云原生技術(shù)產(chǎn)品?如何實(shí)現(xiàn)降本增效?在云原生技術(shù)應(yīng)用方面有哪些實(shí)踐和探索?云原生技術(shù)發(fā)揮了哪些價(jià)值?在本期“云原生降本增效大咖說(shuō)”中，企業(yè)網(wǎng)D1Net采訪了海爾智家全球數(shù)字化平臺(tái)技術(shù)總監(jiān)高麗。

熱文推薦

相關(guān)文章

2016年大數(shù)據(jù)80篇爆款文章：這一年你追過(guò)的那些技術(shù)

業(yè)務(wù)服務(wù)

網(wǎng)站地圖

友情鏈接

合作伙伴