大数据项目开发进度(实时更新)
文章目錄
- 前言
- 項目概述
- 項目進度
- 第一周0525-0529:
- 第二周0601-0605:
- 第三周0608-0612:
- 第四周0615-0621:(周末加班)
- 第五周0622-0628:(周末加班)
- 第六周0629-0705:(周末加班)
- 第七周0706-0712:(周末加班)
- 第八周0713-0717:
- 第九周0720-0725:(完結(jié))
前言
如果你從本文中學(xué)習(xí)到絲毫知識,那么請您點點關(guān)注、點贊、評論和收藏
大家好,我是愛做夢的魚,我是東北大學(xué)大數(shù)據(jù)實驗班大三的小菜雞,非常渴望優(yōu)秀,羨慕優(yōu)秀的人。從5月25號我們開始了為期兩個月的實習(xí),我們需要做一個大型大數(shù)據(jù)項目,一個項目由三個學(xué)生+一個企業(yè)的項目經(jīng)理完成。請大家持續(xù)關(guān)注我的專欄,我會每天更新。
github地址:https://github.com/233zzh/TitanDataOperationSystem
專欄:大數(shù)據(jù)案例實戰(zhàn)——大三春招大數(shù)據(jù)開發(fā)
專欄:Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址:子浩的博客https://blog.csdn.net/weixin_43124279
項目概述
我們采用迭代式開發(fā)的軟件開發(fā)過程
項目進度
第一周0525-0529:
題目:數(shù)據(jù)分析運營系統(tǒng)
數(shù)據(jù)來源:易頭條的部分埋點日志文件+(如果我們后續(xù)需要海量數(shù)據(jù),我們就寫個程序來生成模擬數(shù)據(jù))
TortoiseSVN使用教程【多圖超詳細】——大數(shù)據(jù)開發(fā)實習(xí)(一)
第二周0601-0605:
0601:分析需求1
系統(tǒng)前端展示參考:友盟
0602:編寫版本一的軟件需求規(guī)格說明文檔(SRS)(張志浩)
《v1軟件需求規(guī)格說明文檔(SRS)——大數(shù)據(jù)開發(fā)實習(xí)(二)》
0603:進行系統(tǒng)架構(gòu)設(shè)計(非細節(jié)設(shè)計階段)、安裝環(huán)境2
0604:繼續(xù)安裝環(huán)境2、編寫版本一的架構(gòu)設(shè)計文檔(趙磊)
《v1架構(gòu)設(shè)計文檔——大數(shù)據(jù)開發(fā)實習(xí)(三)》
0605:設(shè)計系統(tǒng)前端界面
分配任務(wù)如下:
趙磊:概況、用戶分析
王闊:存留分析、終端屬性分析
張志浩:渠道分析、用戶參與度分析
第三周0608-0612:
0608:繼續(xù)設(shè)計系統(tǒng)界面原型
0609:繼續(xù)設(shè)計系統(tǒng)界面原型
0610:繼續(xù)設(shè)計系統(tǒng)界面原型并完成
【迭代式開發(fā)】v1前端界面展示+代碼——大數(shù)據(jù)開發(fā)實習(xí)(四)
0611:確定前端請求數(shù)據(jù)格式,設(shè)計前端所需要的數(shù)據(jù)庫
【ADS層表-V1】前端頁面所需的數(shù)據(jù)庫設(shè)計——大數(shù)據(jù)開發(fā)實戰(zhàn)項目(五)
0612:
趙磊:概況(完成部分)、用戶分析(未完成)
王闊:存留分析(完成部分)、終端屬性分析(未完成)
張志浩:渠道分析(完成部分)、用戶參與度分析(未完成)
Web設(shè)計技術(shù)選型、分層、分包以及類與方法設(shè)計——大數(shù)據(jù)開發(fā)實戰(zhàn)項目(五)
第四周0615-0621:(周末加班)
0615:
趙磊:概況(部分完成,完成部分細節(jié)問題有待討論、實踐)、用戶分析(部分完成,完成部分細節(jié)問題有待討論、實踐)
王闊:存留分析(完成,但細節(jié)問題有待討論、實踐)、終端屬性分析(未完成,因為要寫部分代碼的demo)
張志浩:渠道分析(部分完成,完成部分細節(jié)問題有待討論、實踐)、用戶參與度分析(部分完成,完成部分細節(jié)問題有待討論、實踐)
【迭代式開發(fā)v1】類與方法設(shè)計(二)——大數(shù)據(jù)開發(fā)實戰(zhàn)項目(七)
0616:
【迭代式開發(fā)v1】實際去建Web前端頁面所需的數(shù)據(jù)庫(以前只是設(shè)計)+Web后端部分代碼實現(xiàn)——大數(shù)據(jù)開發(fā)實戰(zhàn)項目(八)
0617:小組討論確定代碼注釋規(guī)范+Web后端類與方法代碼實現(xiàn)
【迭代式開發(fā)v1】Web后端類與方法代碼實現(xiàn)——大數(shù)據(jù)開發(fā)實戰(zhàn)項目(九)
0618:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0619:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0620:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0621:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
第五周0622-0628:(周末加班)
0622:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0623:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0624:繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
(基本結(jié)束)原本打算今天把web部署到服務(wù)器上,但是第一我們服務(wù)器剛被老師重啟過,我們怕有問題,第二web還不太完善,比如之前我們都是各自在本地使用mysql數(shù)據(jù)庫,只建了與自己模塊相關(guān)的數(shù)據(jù)庫表,只對自己需要的表用代碼進行了數(shù)據(jù)的模擬生成和插入,而我們之后部署到服務(wù)器,大家各自的模塊就都得用同一個數(shù)據(jù)庫——服務(wù)器上的數(shù)據(jù)庫,所以服務(wù)器上的數(shù)據(jù)必須滿足每個人的模塊對數(shù)據(jù)的需求。但是我們沒有那么多時間去做這個了,所以將完善web+在服務(wù)器上建庫和生成并模擬數(shù)據(jù)+將web部署到服務(wù)器上任務(wù)放到周末,我們現(xiàn)在主要任務(wù)是數(shù)倉
0625:
- 開展數(shù)倉設(shè)計(全體成員)
- 確定使用5層結(jié)構(gòu),ODS層–>DWD層–>DWS層–>DWT層–>ADS層
- 進行了ODS和DWD層設(shè)計
先放一個數(shù)倉設(shè)計展示圖,之后補一篇博客(最近加班太多了,來不及寫博客)
0626:
- 開展數(shù)倉設(shè)計(全體成員)
- 進行了部分DWS、DWT層設(shè)計
0627:
-
開展數(shù)倉設(shè)計(全體成員)
- 進行了DWT層設(shè)計,完善了ODS層、DWD層和DWS層的設(shè)計
-
因為服務(wù)器重啟過,所以需要重新啟動集群的環(huán)境:(張志浩+趙磊)
- 將Hadoop、Zookeeper啟動了起來
-
繪制數(shù)倉各表之間的關(guān)系圖(王闊)
先放一個集群啟動命令+報錯展示圖,之后補一篇博客(最近加班太多了,來不及寫博客)
0628:
- 完善web
- 因為服務(wù)器重啟過,所以需要重新啟動集群的環(huán)境
第六周0629-0705:(周末加班)
0629:將web部署到服務(wù)器上
http://www.superhao.top:12121/src/material/installation.html
0630:
- 研究ip-mapping算法(張志浩、趙磊)
- 將集群環(huán)境全部啟動(張志浩、趙磊)
- 編寫數(shù)倉部分spark任務(wù)文檔(王闊)
先放ip-mapping算法的部分截圖
先放一個數(shù)倉表之間的關(guān)系樣圖,之后補一個高清圖(最近加班太多了)
0701:
- (V1)實現(xiàn)ip-mapping代碼初始版(spark圖計算+scala)(張志浩)
- 搭建 flume 日志采集平臺(趙磊)
- 編寫模擬數(shù)據(jù)生成器業(yè)務(wù)邏輯(王闊)
0702:
- 分配hive表建表任務(wù)(全部成員)
- 討論了 id-mapping 的算法原理(全部成員)
- 進一步討論id-mapping、flume-kafka和hive任務(wù)的整合(全部成員)
- (V2)改進ip-mapping代碼初始版,考慮上一日的idmp字典整合(張志浩)
- 實現(xiàn)模擬數(shù)據(jù)生成器(王闊)
0703:
- 構(gòu)建spark任務(wù)的maven項目,構(gòu)建完成,初步分包(王闊)
- 完成 hive 建表(在idea寫好建表sql語句,并用idea連接hive運行sql語句進行建表)(全部成員,各自完成自己的任務(wù))
- 在建表的過程中, hive 遇到了問題,解決問題https://blog.csdn.net/stable_zl/article/details/107111888
0704+0705:
- 小組討論如何劃分 spark 任務(wù)及實現(xiàn)要用到的技術(shù)
- 復(fù)習(xí) SparkSQL
- 將模擬生成的數(shù)據(jù)通過 flume-kafka-flume 搭建的平臺上傳到 hdfs
第七周0706-0712:(周末加班)
0706:
- 進行spark任務(wù)項目結(jié)構(gòu)設(shè)計(王闊)
- 編寫示例spark任務(wù),完成了原始數(shù)據(jù)導(dǎo)入腳本,json解析任務(wù)(王闊)
- 遇到的問題:spark讀取hive lzo格式表遇到困難
- 進行了 spark 的開發(fā),將之前編寫的 id-map 算法投入到我們的項目中實際使用(張志浩、趙磊)
0707:
- 把 idmap 做了完善,將其輸入輸出路徑與實際的 hdfs 路徑進行對應(yīng)(以前是在win10本地目錄寫了幾個txt文件進行測試)(張志浩、趙磊)
- 進行spark任務(wù)編寫(各自完成所分配的spark任務(wù),遇到問題開會討論)
0708:
- 進行spark任務(wù)編寫(各自完成所分配的spark任務(wù),遇到問題開會討論)
0709:
- 進行spark任務(wù)編寫(各自完成所分配的spark任務(wù),遇到問題開會討論)
0710:
- 進行spark任務(wù)編寫(各自完成所分配的spark任務(wù),遇到問題開會討論)
0711+0712:(這周末任務(wù)少)
- 完善spark任務(wù)
- 討論怎么樣進行數(shù)據(jù)遷移
- 學(xué)習(xí)了 sqoop 的相關(guān)知識,了解數(shù)據(jù)遷移的方法,但后來考慮到sqoop的底層依然是 mr,后選用spark jdbc做數(shù)據(jù)遷移
- 完善文檔
第八周0713-0717:
0713:
- 設(shè)計數(shù)據(jù)遷移邏輯(各自完成自己所分配部分)
- 問題:討論橫表的更新方案,并且將其實現(xiàn)
例如趙磊的base_retention_installation_day表,該表用作留存分析-留存用戶中的新用戶存留展示
- 問題:討論橫表的更新方案,并且將其實現(xiàn)
0714:
- 測試寫好的spark任務(wù):因為前幾天服務(wù)器集群崩了(我們需要hive數(shù)倉),所以我們寫好的spark任務(wù)一直沒有測試(執(zhí)行)
- 補充:我們不能在win本地用idea跑spark任務(wù),會因為hive表為lzo壓縮格式而報錯
0715:編寫各自的ads層數(shù)倉表到mysql的數(shù)據(jù)遷移任務(wù)代碼(用SparkSQL進行遷移,以前選的是sqoop,但是sqoop的底層是mapreduce,速度大大慢于spark,所以我們最終選擇了SparkSQL)
0716:去集群測試我們遷移任務(wù)代碼
0717:測試atlas的使用,最終失敗了,atlas無法監(jiān)控hive表之間的血緣關(guān)系,我們測試了一下原因:用SparkSQL操作hive表,atlas就無法監(jiān)控,但是直接在hive命令好用hiveSQL操作hive表,atlas就可以監(jiān)控
第九周0720-0725:(完結(jié))
0720、0721:編寫、部署azkaban任務(wù)
0722:編寫PPT、錄制答辯視頻
0723:編寫《實訓(xùn)階段總結(jié)報告》和《實訓(xùn)總結(jié)報告》
0724:答辯(在騰訊會議和實訓(xùn)項目經(jīng)理對線)
0724:編寫《13.T01模塊部署流程手冊.docx》和《14.T01用戶使用手冊.docx》
《v1數(shù)據(jù)分析運營系統(tǒng)的需求分析》
1.整體趨勢:
基礎(chǔ)統(tǒng)計數(shù)值:包括7日平均新增用戶、活躍用戶等,一周內(nèi)、一個月內(nèi)的統(tǒng)計量總數(shù),總用戶數(shù)。
指定時間區(qū)間內(nèi)(默認30天內(nèi)每日):
新增用戶、活躍用戶、啟動次數(shù)、累計用戶
折線圖,明細數(shù)據(jù)列表
Top版本環(huán)形圖:新增用戶、活躍用戶、累計用戶每個版本占比
Top渠道環(huán)形圖:新增用戶、活躍用戶、累計用戶每個渠道占比
2.用戶分析:
a.新增用戶:
指定時間段、指定渠道和版本,每日新增用戶折線圖、明細數(shù)據(jù)表格
次日存留率折線圖、明細
b.活躍用戶:
指定時間段、指定渠道和版本下,
活躍趨勢、活躍構(gòu)成、活躍粘度、分時活躍用戶、周,月活躍度
c.啟動次數(shù):
指定時間段、指定渠道和版本下,每(小時、天、周、月)的啟動次數(shù)
d.版本分布:
指定時間段、版本下, 每天新增用戶、活躍用戶、啟動次數(shù)折線圖
今日、昨日截至今日版本累計用戶(%),新增用戶,活躍用戶(%),啟動次數(shù)
3.留存分析:
a.留存用戶
指定時間段、指定渠道和版本下,每一個時間段(天、周、月)新用戶和活躍用戶數(shù)在接下來一段時間(天、周、月)的留存數(shù)/留存率,以表格形式和折線形式呈現(xiàn)。
b.用戶新鮮度:
報表展示每天活躍用戶的成分構(gòu)成,并提供用戶成分分析控件做進一步的分析。某日的活躍用戶來源于當(dāng)天新增用戶、1天前新增用戶…30天前新增用戶、30+天前新增用戶。
c.用戶活躍度:
報表展現(xiàn)每個天級時間點的當(dāng)日活躍用戶的活躍程度。
4.渠道分析:
a.渠道列表:
指定時間段、指定版本,各渠道新增用戶、活躍用戶、啟動次數(shù)
5.用戶參與度
a.使用時長:
指定某一天、指定渠道和版本下,單次使用時長分布柱形圖,明細表格。
該天每個活躍用戶使用時長分布柱形圖、明細表格。
b.使用頻率:
指定日期,指定版本、渠道,當(dāng)日、上周、上個月使用次數(shù)分布柱形圖,明細表格。
c.訪問頁面:
指定時間段(一天、一周、一個月)、指定渠道和版本下,訪問頁面分布柱形圖,明細表格。
d.使用間隔:
查看任意30天內(nèi)用戶相鄰兩次啟動間隔的分布情況,并可以進行版本、渠道及分群的篩選。以柱形圖、明細表格形式展示。
6.終端屬性:
a.設(shè)備終端:
指定時間段(一天、一周、一個月)、指定渠道和版本下 ,top10機型、分辨率、操作系統(tǒng)的新增用戶/啟動次數(shù)柱狀圖、明細表格。
b.網(wǎng)絡(luò)及運營商:
指定時間段(一天、一周、一個月)、指定渠道和版本下 ,各種聯(lián)網(wǎng)方式的新增用戶/啟動次數(shù)柱狀圖、明細表格。
c. 地域:
指定時間段(一天、一周、一個月)、指定渠道和版本下 ,各省市的新增用戶/活躍用戶/啟動次數(shù)柱狀圖(top10省)、明細表格(省市)。 ??
所需安裝環(huán)境為:
每個環(huán)境的作用:
數(shù)據(jù)采集傳輸:
- Flume:分布式日志數(shù)據(jù)匯聚
- Kafka:實時采集(計算)的緩沖
- Sqoop:離線批量抽取數(shù)據(jù)庫
數(shù)據(jù)存儲:
- Mysql
- HDFS
數(shù)據(jù)計算:
- Spark
數(shù)據(jù)可視化:
- Echarts
job任務(wù)調(diào)度:
- Azkaban
元數(shù)據(jù)管理:
- Atlas
總結(jié)
以上是生活随笔為你收集整理的大数据项目开发进度(实时更新)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C# 6.0语法新特性体验(二)
- 下一篇: struts2 中文乱码问题,自定义过滤