Growth Hacking背后,数据分析平台的架构调整
發(fā)表于2015-11-03 11:05| 1547次閱讀| 來源CSDN| 6 條評論| 作者蒲婧
CTO俱樂部CTOCTO講堂Growth Hacking數(shù)據(jù)分析 width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-11-03%2F2826110-CTO&type=3&count=&appkey=&title=Growth%20Hacking%E6%A6%82%E5%BF%B5%E8%B6%8A%E6%9D%A5%E8%B6%8A%E7%81%AB%EF%BC%8C%E5%BE%88%E5%A4%9A%E5%88%9B%E4%B8%9A%E5%9B%A2%E9%98%9F%E6%8A%8A%E8%BF%99%E4%B8%AA%E4%B8%BAFacebook%E3%80%81Airbnb%E7%AD%89%E5%85%AC%E5%8F%B8%E5%B8%A6%E6%9D%A5%E5%B7%A8%E5%A4%A7%E7%94%A8%E6%88%B7%E5%A2%9E%E9%87%8F%E7%9A%84%E6%A6%82%E5%BF%B5%E5%A5%89%E4%B8%BA%E5%9C%A3%E7%BB%8F%E3%80%82%E4%B8%8E%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%9A%84%E5%85%B3%E7%B3%BB%E6%98%AF%E6%80%8E%E6%A0%B7%E7%9A%84%EF%BC%9F%E7%8E%B0%E6%9C%89%E7%9A%84%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%9E%B6%E6%9E%84%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%8D%E8%83%BD%E6%94%AF%E6%8C%81%E9%9C%80%E6%B1%82%EF%BC%9F%E6%9C%AC%E6%96%87%E4%B8%BA%E8%AF%B8%E8%91%9Bio%E5%88%9B%E5%A7%8B%E4%BA%BA%26CEO%E5%AD%94%E6%B7%BC%E7%9A%84%E5%88%86%E4%BA%AB%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1449995251852" frameborder="0" scrolling="no" allowtransparency="true">摘要:Growth Hacking概念越來越火,很多創(chuàng)業(yè)團(tuán)隊(duì)把這個(gè)為Facebook、Airbnb等公司帶來巨大用戶增量的概念奉為圣經(jīng)。與數(shù)據(jù)分析的關(guān)系是怎樣的?現(xiàn)有的數(shù)據(jù)分析架構(gòu)為什么不能支持需求?本文為諸葛io創(chuàng)始人&CEO孔淼的分享。為了幫助IT從業(yè)者職業(yè)之路擁有更多收獲,在諸多C粉的殷切期待下,由 CTO俱樂部打造的CTO線上講堂自登場以來獲得大家好評。本期邀請諸葛io創(chuàng)始人&CEO孔淼帶來“Growth Hacking背后,數(shù)據(jù)分析平臺的架構(gòu)調(diào)整?”的主題分享。
歡迎加入CTO講堂微信群與業(yè)界大咖零距離溝通,11月6日本期講堂報(bào)名方式拖至文末查看。
分享嘉賓:諸葛io 創(chuàng)始人&CEO 孔淼
嘉賓簡介:孔淼,90后,諸葛io 創(chuàng)始人/CEO,畢業(yè)于華中科技大學(xué)軟件工程專業(yè)。大學(xué)期間獲得全球最大學(xué)生技術(shù)創(chuàng)新比賽微軟創(chuàng)新杯兩項(xiàng)一等獎,騰訊校園之星大賽全國第二,全國大學(xué)生計(jì)算機(jī)設(shè)計(jì)大賽一等獎,HTML5 code jam武漢冠軍。曾受邀實(shí)習(xí)于創(chuàng)新工場,擔(dān)任李開復(fù)博士的技術(shù)主力,負(fù)責(zé)處理工場各部門以及李開復(fù)的技術(shù)需求。畢業(yè)后放棄保研以及各大公司offer,加入37degree團(tuán)隊(duì)開始創(chuàng)業(yè)。在37degree期間,曾帶領(lǐng)團(tuán)隊(duì)服務(wù)過CCTV、海爾、寶馬等知名企業(yè)。過去4年間,孔淼專注于對數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域的探究,并于去年起打造了新一代的數(shù)據(jù)服務(wù)平臺——諸葛io。
公司簡介:諸葛io (zhugeio.com) ,作為國內(nèi)首屈一指的精細(xì)化運(yùn)營分析工具,一直強(qiáng)調(diào)數(shù)據(jù)分析的應(yīng)用與價(jià)值。自2015年3月上線,已擁有圍繞產(chǎn)品業(yè)務(wù)邏輯展開的一系列功能,如:自定義事件、自定義留存、漏斗轉(zhuǎn)化、群組細(xì)分、用戶畫像等。諸葛io旨在以先進(jìn)的用戶跟蹤技術(shù)和簡單易用的集成開發(fā)方法,幫助產(chǎn)品與運(yùn)營者挖掘用戶的真實(shí)行為特征。產(chǎn)品上線運(yùn)營半年,已擁有暴走漫畫、墨跡天氣、小影、尋醫(yī)問藥網(wǎng)的諸多樣板客戶,總覆蓋設(shè)備數(shù)超過一億。目前,諸葛io支持Android、iOS和HTML(JS)三個(gè)平臺。?
以下是10月29日CTO講堂現(xiàn)場完整速記:
主持人:講堂開始啦~今天嘉賓是諸葛io 創(chuàng)始人兼CEO孔淼,請您做個(gè)自我介紹吧。
孔淼:大家好,我叫孔淼,諸葛io的創(chuàng)始人,現(xiàn)在也是CEO,之前是創(chuàng)新工場也是微軟創(chuàng)投加速器項(xiàng)目37degree的CTO,所以也應(yīng)該算第二次創(chuàng)業(yè)了,過去幾年一直是專注于分布式技術(shù)和數(shù)據(jù)挖掘領(lǐng)域。在過去的幾年積累的經(jīng)驗(yàn),也意識到了數(shù)據(jù)分析的困難,所以這次打造諸葛io也是為了幫助更多的企業(yè)更高效快捷的開始利用數(shù)據(jù)驅(qū)動決策。
主持人:什么情況下開始的諸葛io的創(chuàng)業(yè)呢,最初的創(chuàng)業(yè)方向是怎么確定的?
孔淼:最初創(chuàng)業(yè)方向應(yīng)該是我還在37degree的時(shí)候,大概是13年底,就和合伙人討論了當(dāng)時(shí)如何將數(shù)據(jù)分析標(biāo)準(zhǔn)化服務(wù)更多的企業(yè),討論了當(dāng)時(shí)非常常用的百度統(tǒng)計(jì),友盟,talkingdata,Google Analytics等統(tǒng)計(jì)類工具,后來總結(jié)他們的弊端有兩點(diǎn):
一是幾乎是外部環(huán)境和通用的維度數(shù)據(jù)(DAU, PV, 設(shè)備,運(yùn)營商等等),很難反映業(yè)務(wù)的情況,并且稍微和業(yè)務(wù)相關(guān)的類似頁面訪問這些數(shù)據(jù)粒度也太粗了;二是這些數(shù)據(jù)大多都是忽略人的行為路徑,純從行為發(fā)生進(jìn)行統(tǒng)計(jì),高度匯總的統(tǒng)計(jì)平臺。沒有基于用戶進(jìn)行分析。
后來也討論了Splunk這種日志處理分析工具,但是這種工具場景離業(yè)務(wù)太遠(yuǎn)了,也會限定用戶群是能夠收集日志,有一些分析能力的團(tuán)隊(duì)。但是沒有想到合適的方法,直到14年初一個(gè)和手機(jī)廠商合作的SDK項(xiàng)目讓我們有些開竅了,找到解決問題的方式和辦法了,然后連續(xù)半個(gè)月,我和合伙人每天晚上聊到11點(diǎn)多,到14年10月就開始DEMO,12月就開始現(xiàn)有版本的開發(fā)了。
主持人:請介紹一下目前諸葛io的情況以及技術(shù)團(tuán)隊(duì)構(gòu)成。
孔淼:目前諸葛io有二十多人,現(xiàn)有的標(biāo)準(zhǔn)化產(chǎn)品是zhugeio.com,暴走漫畫,小影,尋醫(yī)問藥,墨跡天氣,365日歷等知名應(yīng)用和服務(wù)都已經(jīng)是我們的用戶了。現(xiàn)在注冊的開發(fā)者超過1000,創(chuàng)建的應(yīng)用也逼近500個(gè)了,我們提供javascript,Android,iOS等三個(gè)平臺的數(shù)據(jù)分析服務(wù),已經(jīng)覆蓋超過2億的設(shè)備。
同上面講的差異,諸葛io目前提供的主要是基于用戶行為進(jìn)行實(shí)時(shí)多維度的交叉分析,幫助更多企業(yè)將產(chǎn)品黑盒子打開,幫助他們提高客戶留存和客戶忠誠度,也能看到更多自己的業(yè)務(wù)相關(guān)指標(biāo)變化以及背后的人群,目前提供無碼布點(diǎn)(無需更新應(yīng)用實(shí)時(shí)可視化埋點(diǎn)跟蹤),自定義事件、自定義留存、漏斗轉(zhuǎn)化、群組細(xì)分、用戶畫像,通知推送等服務(wù)。并且我們在持續(xù)迭代,旨在打磨更好,更易驅(qū)動決策的產(chǎn)品。
技術(shù)團(tuán)隊(duì)的構(gòu)成目前是十多人,包括了前端工程師,web開發(fā)工程師,服務(wù)端工程師,大數(shù)據(jù)工程師,數(shù)據(jù)倉庫工程師,運(yùn)維,DevOps,后臺開發(fā)工程師,SDK開發(fā)工程師, 數(shù)據(jù)分析師。
主持人:近期“Growth Hacking(增長黑客)”的概念越來越火,很多創(chuàng)業(yè)團(tuán)隊(duì)都把這個(gè)為Facebook、Dropbox、Airbnb等公司帶來巨大用戶增量的概念奉為圣經(jīng)。然而,究竟什么是Growth Hacking?該如何理解呢?
孔淼:Growth Hacking我在之前分享過一篇 文章
也在創(chuàng)新工場講過 一次課
大家可以看看,Growth Hacking更多的是基于一些產(chǎn)品現(xiàn)狀的數(shù)據(jù)分析,通過一些策略獲取快速的增長,Growth Hacking不同與市場或者BD,后者更多是面上的覆蓋,用通用的方法帶來流量或者以資源互換帶來增長,它更多的是圍繞AARRR的用戶生命周期,也就是Acquisition(用戶獲取),Activation(用戶活躍/激活),Retention(留存), Referral(傳播),Revenue(收入),這樣一個(gè)用戶從獲取到產(chǎn)生價(jià)值轉(zhuǎn)換的過程,其實(shí)也是一個(gè)漏斗轉(zhuǎn)化,針對某個(gè)轉(zhuǎn)化比較糟糕的階段進(jìn)行分析,提出策略,然后針對性改善,獲取爆發(fā)增長。所以是基于數(shù)據(jù),更有針對性,也更Hacker一些。
主持人:那么Growth Hacking與數(shù)據(jù)分析的關(guān)系是怎樣的?
孔淼:Growth Hacking不是完全拍腦門,我們可能會經(jīng)常腦洞打開提出很多策略,但是數(shù)據(jù)分析的支撐越少,語境就越大,就越靠直覺和猜測了,而Growth Hacking大多是基于數(shù)據(jù)分析,例如剛剛講到的2A3R(AARRR)的用戶轉(zhuǎn)化情況,所以就把策略和決策能夠focus在更準(zhǔn)確的地方,通常就是我們所說的OMTM( One Metric That Matters)最有影響的指標(biāo)或因素。
主持人:研發(fā)團(tuán)隊(duì)在其中扮演著怎樣的角色?都面臨哪些挑戰(zhàn)?
孔淼:我們提供的數(shù)據(jù)分析,是從采集到交互式分析,所以剛剛講到的這些職位自然就有相應(yīng)的對應(yīng)。SDK工程師(數(shù)據(jù)采集),服務(wù)端工程師(數(shù)據(jù)收集),大數(shù)據(jù)工程師(數(shù)據(jù)處理清洗),數(shù)據(jù)倉庫工程師(建模分析),web開發(fā)工程師(網(wǎng)站應(yīng)用),前端工程師(交互效果),然后運(yùn)維和DevOps會支撐內(nèi)部的一些服務(wù)和數(shù)據(jù)分析,數(shù)據(jù)分析師也會基于數(shù)據(jù)幫助企業(yè)探索一些價(jià)值產(chǎn)出。
面臨的挑戰(zhàn)也挺多的,如何處理更加實(shí)時(shí),以及更加大量級的(微信,今日頭條等)分析,SLA等等。
主持人:談到今天分享的主題,為什么說現(xiàn)有的數(shù)據(jù)分析架構(gòu)不能支持Growth Hacking需求?
孔淼:其實(shí)剛剛對Growth Hacking已經(jīng)解釋了,更多的是圍繞用戶分析而來,而開始也提到了現(xiàn)有的數(shù)據(jù)分析系統(tǒng)解決方案大多數(shù)是基于Hadoop的統(tǒng)計(jì)分析平臺,開始會抽出一些待交叉分析的維度,然后針對維度進(jìn)行計(jì)數(shù),所以丟掉了人的行為路徑。
主持人:目前諸葛io是如何在架構(gòu)上解決傳統(tǒng)分析平臺的不足?可否展開詳細(xì)談?wù)劇?/span>
孔淼:我們的架構(gòu)還是現(xiàn)有數(shù)據(jù)分析常見的lambda架構(gòu),我們的數(shù)據(jù)處理過程分層比較平行,并且基本上都是分布式技術(shù),沒有單一的使用一種數(shù)據(jù)庫,例如用到了mysql,infobright, Elasticsearch,? Hadoop分別存儲和處理不同類型的業(yè)務(wù)。也把一些高復(fù)雜度的分析進(jìn)行拆解,不太好用單一技術(shù)解決的問題,會從業(yè)務(wù)拆解。
可以分享一個(gè)我們的架構(gòu)圖:
我們的消息隊(duì)列用的是Kafka,這種就把子業(yè)務(wù)系統(tǒng)的處理變成了多層消費(fèi)者,支撐不同業(yè)務(wù)條件下的分析。
我們的架構(gòu)做過一次變遷,最開始的時(shí)候,中間的業(yè)務(wù)數(shù)據(jù)清洗,寫的是java進(jìn)程消費(fèi)Kafka進(jìn)行處理,后來改成了Samza,也是為了擴(kuò)展性。
主持人:請介紹一下諸葛io目前的產(chǎn)品及服務(wù)? 諸葛io提供哪些工具來協(xié)助提升技術(shù)團(tuán)隊(duì)的效率?
孔淼:諸葛io的產(chǎn)品和服務(wù)剛剛已經(jīng)介紹過了,我們內(nèi)部用Gitlab進(jìn)行代碼管理,用JIRA跟蹤bug,用Teambition進(jìn)行項(xiàng)目管理,內(nèi)部堅(jiān)決不造輪子,也會用ELK這種跟蹤內(nèi)部的日志。
主持人:相比同類型產(chǎn)品,主要優(yōu)勢有哪些?
孔淼:我們是國內(nèi)最早基于用戶和業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)多維交叉分析工具,相對于傳統(tǒng)的分析工具,主要差異如下:
主持人:請談?wù)勀銈兪菑哪男┓矫鎭碜龊冒踩U虾吞嵘?wù)質(zhì)量的?
孔淼:我們目前的是基于標(biāo)準(zhǔn)服務(wù)器和數(shù)據(jù)庫的端口權(quán)限管理保證基礎(chǔ)的安全,并且諸葛現(xiàn)有的數(shù)據(jù)上傳和數(shù)據(jù)查看也逐步全面切換HTTPS服務(wù),我們同是在數(shù)據(jù)上傳和處理也做了多級備份的策略,上周末我們的服務(wù)器硬盤突然異常損壞,但是整個(gè)過程基本上沒有用戶的數(shù)據(jù)丟失,這是對內(nèi)的,對外我們也在評估一些安全廠商,希望通過外部的力量幫助我們提早發(fā)現(xiàn)漏洞和保障安全。
主持人:看到您簡歷,屬于年輕的一代的創(chuàng)業(yè)者,請結(jié)合您的切身體會談?wù)勀壑心贻p一代人身上的特點(diǎn),以及對即將走上創(chuàng)業(yè)之路的年輕人有什么建議?
孔淼:我是連續(xù)創(chuàng)業(yè),第一次是深度參與創(chuàng)業(yè),所以也很感謝我第一次創(chuàng)業(yè)的老板也是我現(xiàn)在的合伙人,讓我了解到了創(chuàng)業(yè)中得很多問題,而這一次以CEO身份創(chuàng)業(yè)也從更多方面上感受到了挑戰(zhàn)和壓力,但非常值得!
對于年輕一代人,我其實(shí)還是不太理解的哈哈,所以大家看我都以為我是85年,其實(shí)我是91年出生的,我女朋友比我小一歲,也叫我叔叔,包括身邊的朋友大多也是70后和80后一些創(chuàng)業(yè)經(jīng)歷豐富的朋友,也一直是我學(xué)習(xí)的目標(biāo)。總的來說,我還沒有創(chuàng)業(yè)成功,也沒有太多資格去給別人建議,但我的體會是有價(jià)值和值得的。
主持人:那么平時(shí)諸葛io的技術(shù)團(tuán)隊(duì)都通過什么渠道來提升團(tuán)隊(duì)?技術(shù)團(tuán)隊(duì)氛圍是怎樣的?公司招人過程中,您比較看重新人的哪些特質(zhì)?不大接受哪一類型的人?
孔淼:我一直堅(jiān)持的是讓大家要發(fā)現(xiàn)自己所做事情的價(jià)值,也努力讓大家認(rèn)同公司產(chǎn)品的價(jià)值,并且?guī)椭總€(gè)人找到自己合適職位和工作內(nèi)容,比如我們的大數(shù)據(jù)工程師就是從web開發(fā)轉(zhuǎn)過來的,興趣和passion是最好的提升方法。
技術(shù)的氛圍是鼓勵大家學(xué)習(xí),挑戰(zhàn)和反思。根據(jù)職位不同,看重的不一樣,但最重要的還是學(xué)習(xí)能力。不大接受的是自然也就是抵觸學(xué)習(xí)的人。
主持人:推薦一些您覺得非常不錯的書籍或者學(xué)習(xí)資源吧。
孔淼:《精益數(shù)據(jù)分析》(《Lean Analytics》)相信對很多公司的數(shù)據(jù)分析部分有幫助,然后架構(gòu)方面,就是多看類似InfoQ上一些公司分享的slides,國外的就是slideshare、 highscalability?可以找到很多資源,不過還是提醒下大公司的架構(gòu)不見得借鑒性那么強(qiáng),核心還是弄清自己業(yè)務(wù),以及相關(guān)技術(shù)棧的特點(diǎn)。
我推薦技術(shù)人員不要過多只限于技術(shù),更多也要多了解業(yè)務(wù),有的放矢。
互動環(huán)節(jié):請問的系統(tǒng)會爬取公網(wǎng)的網(wǎng)頁消息用作數(shù)據(jù)分析么?孔淼:不會,我們做第一方數(shù)據(jù)分析,只分析您自己的數(shù)據(jù) 互動環(huán)節(jié):您現(xiàn)在的業(yè)務(wù)收集數(shù)據(jù)和數(shù)據(jù)報(bào)告延時(shí)多少?主要是哪個(gè)環(huán)節(jié)延遲最大,是什么原因呢?
孔淼:數(shù)據(jù)收集是實(shí)時(shí),這個(gè)實(shí)時(shí)是不考慮終端數(shù)據(jù)上傳策略,數(shù)據(jù)報(bào)告是on demand的。實(shí)時(shí)的數(shù)據(jù)報(bào)告不包含今日的數(shù)據(jù)。
問:個(gè)人拙見 這是得客戶自己不斷的改進(jìn)才能拿到最多給自己的組合。 當(dāng)然可以反饋給孔老師:)
孔淼:嗯,分析也是迭代的,過往錯誤的觀念是把所有數(shù)據(jù)都收集起來,結(jié)果也都不會分析的,本身版本迭代過程,你也不會一個(gè)月解決所有的問題。 互動環(huán)節(jié):您能舉一個(gè) 真是的google analytics 干不了的 你的可以干的了的案例嗎?
孔淼:自定義留存,比如滴滴用諸葛io可以看到搶了紅包持續(xù)打車或者沒有打車的的留存率怎樣。并且這些數(shù)字都能看到背后每個(gè)人最近的使用情況。
問:同意。 youtube 只關(guān)注 watch time, what's app 就關(guān)注 messages per day, fb 關(guān)注 dau。
孔淼:是的,過去大家用百度統(tǒng)計(jì),友盟看到的都是一樣的留存,DAU,但是其實(shí)更加關(guān)注的應(yīng)該是自己的業(yè)務(wù)情況,比如滴滴打車留存,知乎日報(bào)是閱讀的留存。 互動環(huán)節(jié):不需要hdfs分布式文件系統(tǒng)存儲,直接流式處理數(shù)據(jù)放入數(shù)據(jù)庫中,是這樣嗎?
孔淼:流失處理數(shù)據(jù)是過程,HDFS分布式存儲是其中一種消費(fèi)應(yīng)用,也有入到Redis做技術(shù)統(tǒng)計(jì),也有入到Elasticsearch做索引的,還有其他的。所以不是唯一只存在一個(gè)地方,每一種數(shù)據(jù)庫有各自的應(yīng)用場景,并列的消費(fèi)者。 互動環(huán)節(jié):您講的觀點(diǎn)非常贊同。有這么一個(gè)問題請教一下:app行為日志和業(yè)務(wù)相結(jié)合,但可能存在你們對于公司的業(yè)務(wù)不夠熟悉,這種情況下如何達(dá)到預(yù)期效果?
孔淼:我們的SDK接口抽象了,業(yè)務(wù)抽象成了事件名稱和屬性的組合。我們捕獲數(shù)據(jù)后,就會自動成為我們的篩選條件。所以每一家應(yīng)用使用諸葛io篩選條件都不一樣。 互動環(huán)節(jié):實(shí)時(shí)的多維分析主要是基于那種存儲呢? 是mysql么?還是mongoDB呢?
孔淼:還是關(guān)系型數(shù)據(jù)庫,但是每天凌晨結(jié)合業(yè)務(wù)生成了一些中間表,降低復(fù)雜度。 互動環(huán)節(jié):大數(shù)據(jù)分析固然重要, 你們?nèi)绾螌Υ銈兪占臄?shù)據(jù)里包含的個(gè)人隱私?還是還是目前不管這一塊?
孔淼:我們做第一方數(shù)據(jù)分析,不會自己基于數(shù)據(jù)賣錢,本身就是收費(fèi)服務(wù),這是我們商業(yè)模式。關(guān)于安全性,剛剛也講了我們的措施。 互動環(huán)節(jié):使用開源軟件過程中有沒有遇到一些不好解決的難題?
孔淼:有,有一些限制,但是我們目前遇到的問題不大,往后肯定會有更多問題,下個(gè)階段可能就需要基于源碼做深度的修改開發(fā)了。
總結(jié)
以上是生活随笔為你收集整理的Growth Hacking背后,数据分析平台的架构调整的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何构建高可用和可伸缩的架构?
- 下一篇: 独家直播双十一全网动态?前黑客“劳改”带