當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据项目开发进度（实时更新）

發(fā)布時間：2023/12/20 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据项目开发进度（实时更新）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

前言
項目概述
項目進度
- 第一周0525-0529：
- 第二周0601-0605：
- 第三周0608-0612：
- 第四周0615-0621：（周末加班）
- 第五周0622-0628：（周末加班）
- 第六周0629-0705：（周末加班）
- 第七周0706-0712：（周末加班）
- 第八周0713-0717：
- 第九周0720-0725：（完結(jié)）

前言

如果你從本文中學(xué)習(xí)到絲毫知識，那么請您點點關(guān)注、點贊、評論和收藏
大家好，我是愛做夢的魚，我是東北大學(xué)大數(shù)據(jù)實驗班大三的小菜雞，非常渴望優(yōu)秀，羨慕優(yōu)秀的人。從5月25號我們開始了為期兩個月的實習(xí)，我們需要做一個大型大數(shù)據(jù)項目，一個項目由三個學(xué)生+一個企業(yè)的項目經(jīng)理完成。請大家持續(xù)關(guān)注我的專欄，我會每天更新。
github地址：https://github.com/233zzh/TitanDataOperationSystem
專欄：大數(shù)據(jù)案例實戰(zhàn)——大三春招大數(shù)據(jù)開發(fā)
專欄：Spark官方文檔解讀【Spark2.4.5中英雙語】
博客地址：子浩的博客https://blog.csdn.net/weixin_43124279

項目概述

我們采用迭代式開發(fā)的軟件開發(fā)過程

項目進度

第一周0525-0529：

確定項目題目和項目數(shù)據(jù)來源
題目：數(shù)據(jù)分析運營系統(tǒng)
數(shù)據(jù)來源：易頭條的部分埋點日志文件+（如果我們后續(xù)需要海量數(shù)據(jù)，我們就寫個程序來生成模擬數(shù)據(jù)）

學(xué)會使用SVN
TortoiseSVN使用教程【多圖超詳細】——大數(shù)據(jù)開發(fā)實習(xí)（一）

第二周0601-0605：

0601：分析需求¹
系統(tǒng)前端展示參考：友盟
0602：編寫版本一的軟件需求規(guī)格說明文檔（SRS）（張志浩）
《v1軟件需求規(guī)格說明文檔（SRS）——大數(shù)據(jù)開發(fā)實習(xí)（二）》
0603：進行系統(tǒng)架構(gòu)設(shè)計（非細節(jié)設(shè)計階段）、安裝環(huán)境²
0604：繼續(xù)安裝環(huán)境²、編寫版本一的架構(gòu)設(shè)計文檔（趙磊）
《v1架構(gòu)設(shè)計文檔——大數(shù)據(jù)開發(fā)實習(xí)（三）》
0605：設(shè)計系統(tǒng)前端界面
分配任務(wù)如下：

趙磊：概況、用戶分析
王闊：存留分析、終端屬性分析
張志浩：渠道分析、用戶參與度分析

第三周0608-0612：

0608：繼續(xù)設(shè)計系統(tǒng)界面原型
0609：繼續(xù)設(shè)計系統(tǒng)界面原型
0610：繼續(xù)設(shè)計系統(tǒng)界面原型并完成
【迭代式開發(fā)】v1前端界面展示+代碼——大數(shù)據(jù)開發(fā)實習(xí)（四）
0611：確定前端請求數(shù)據(jù)格式，設(shè)計前端所需要的數(shù)據(jù)庫
【ADS層表-V1】前端頁面所需的數(shù)據(jù)庫設(shè)計——大數(shù)據(jù)開發(fā)實戰(zhàn)項目（五）
0612：

數(shù)據(jù)庫訪問技術(shù)選型，從 JAP、Mybatis、JDBC Templete 中選了 JDBC Templete

完成了項目架構(gòu)的分層

對前后端進行了分包

部分模塊的類與方法進行了粗略設(shè)計
趙磊：概況（完成部分）、用戶分析（未完成）
王闊：存留分析（完成部分）、終端屬性分析（未完成）
張志浩：渠道分析（完成部分）、用戶參與度分析（未完成）

Web設(shè)計技術(shù)選型、分層、分包以及類與方法設(shè)計——大數(shù)據(jù)開發(fā)實戰(zhàn)項目（五）

第四周0615-0621：（周末加班）

0615：

繼續(xù)完成剩下模塊的類與方法的設(shè)計
趙磊：概況（部分完成，完成部分細節(jié)問題有待討論、實踐）、用戶分析（部分完成，完成部分細節(jié)問題有待討論、實踐）
王闊：存留分析（完成，但細節(jié)問題有待討論、實踐）、終端屬性分析（未完成，因為要寫部分代碼的demo）
張志浩：渠道分析（部分完成，完成部分細節(jié)問題有待討論、實踐）、用戶參與度分析（部分完成，完成部分細節(jié)問題有待討論、實踐）

王闊（但未完成終端屬性分析模塊的類與方法的設(shè)計）：實現(xiàn)存留分析部分demo，驗證可行性作為web部分代碼標(biāo)準(zhǔn)

【迭代式開發(fā)v1】類與方法設(shè)計（二）——大數(shù)據(jù)開發(fā)實戰(zhàn)項目（七）

0616：

張志浩、趙磊：實際去建Web前端頁面所需的數(shù)據(jù)庫（以前只是設(shè)計，并沒有實際建表）

王闊：Web后端部分代碼實現(xiàn)（注：未完成終端屬性模塊的類與方法設(shè)計：TerminalAttributes）

【迭代式開發(fā)v1】實際去建Web前端頁面所需的數(shù)據(jù)庫（以前只是設(shè)計）+Web后端部分代碼實現(xiàn)——大數(shù)據(jù)開發(fā)實戰(zhàn)項目（八）

0617：小組討論確定代碼注釋規(guī)范+Web后端類與方法代碼實現(xiàn)
【迭代式開發(fā)v1】Web后端類與方法代碼實現(xiàn)——大數(shù)據(jù)開發(fā)實戰(zhàn)項目（九）
0618：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0619：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0620：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0621：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互

第五周0622-0628：（周末加班）

0622：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0623：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
0624：繼續(xù)進行Web后端類與方法代碼實現(xiàn)+前后端交互
（基本結(jié)束）原本打算今天把web部署到服務(wù)器上，但是第一我們服務(wù)器剛被老師重啟過，我們怕有問題，第二web還不太完善，比如之前我們都是各自在本地使用mysql數(shù)據(jù)庫，只建了與自己模塊相關(guān)的數(shù)據(jù)庫表，只對自己需要的表用代碼進行了數(shù)據(jù)的模擬生成和插入，而我們之后部署到服務(wù)器，大家各自的模塊就都得用同一個數(shù)據(jù)庫——服務(wù)器上的數(shù)據(jù)庫，所以服務(wù)器上的數(shù)據(jù)必須滿足每個人的模塊對數(shù)據(jù)的需求。但是我們沒有那么多時間去做這個了，所以將完善web+在服務(wù)器上建庫和生成并模擬數(shù)據(jù)+將web部署到服務(wù)器上任務(wù)放到周末，我們現(xiàn)在主要任務(wù)是數(shù)倉
0625：

開展數(shù)倉設(shè)計（全體成員）
- 確定使用5層結(jié)構(gòu)，ODS層–>DWD層–>DWS層–>DWT層–>ADS層
- 進行了ODS和DWD層設(shè)計

先放一個數(shù)倉設(shè)計展示圖，之后補一篇博客（最近加班太多了，來不及寫博客）

0626：

開展數(shù)倉設(shè)計（全體成員）
- 進行了部分DWS、DWT層設(shè)計

0627：

開展數(shù)倉設(shè)計（全體成員）
- 進行了DWT層設(shè)計，完善了ODS層、DWD層和DWS層的設(shè)計
因為服務(wù)器重啟過，所以需要重新啟動集群的環(huán)境：（張志浩+趙磊）
- 將Hadoop、Zookeeper啟動了起來
繪制數(shù)倉各表之間的關(guān)系圖（王闊）

先放一個集群啟動命令+報錯展示圖，之后補一篇博客（最近加班太多了，來不及寫博客）

0628：

完善web
因為服務(wù)器重啟過，所以需要重新啟動集群的環(huán)境

第六周0629-0705：（周末加班）

0629：將web部署到服務(wù)器上
http://www.superhao.top:12121/src/material/installation.html
0630：

研究ip-mapping算法（張志浩、趙磊）
將集群環(huán)境全部啟動（張志浩、趙磊）
編寫數(shù)倉部分spark任務(wù)文檔（王闊）

先放ip-mapping算法的部分截圖

先放一個數(shù)倉表之間的關(guān)系樣圖，之后補一個高清圖（最近加班太多了）

0701：

（V1）實現(xiàn)ip-mapping代碼初始版（spark圖計算+scala）（張志浩）
搭建 flume 日志采集平臺（趙磊）
編寫模擬數(shù)據(jù)生成器業(yè)務(wù)邏輯（王闊）

0702：

分配hive表建表任務(wù)（全部成員）
討論了 id-mapping 的算法原理（全部成員）
進一步討論id-mapping、flume-kafka和hive任務(wù)的整合（全部成員）
（V2）改進ip-mapping代碼初始版，考慮上一日的idmp字典整合（張志浩）
實現(xiàn)模擬數(shù)據(jù)生成器（王闊）

0703：

構(gòu)建spark任務(wù)的maven項目，構(gòu)建完成，初步分包(王闊)
完成 hive 建表（在idea寫好建表sql語句，并用idea連接hive運行sql語句進行建表）（全部成員，各自完成自己的任務(wù)）
在建表的過程中， hive 遇到了問題，解決問題https://blog.csdn.net/stable_zl/article/details/107111888

0704+0705：

小組討論如何劃分 spark 任務(wù)及實現(xiàn)要用到的技術(shù)
復(fù)習(xí) SparkSQL
將模擬生成的數(shù)據(jù)通過 flume-kafka-flume 搭建的平臺上傳到 hdfs

第七周0706-0712：（周末加班）

0706：

進行spark任務(wù)項目結(jié)構(gòu)設(shè)計（王闊）
編寫示例spark任務(wù)，完成了原始數(shù)據(jù)導(dǎo)入腳本，json解析任務(wù)（王闊）
- 遇到的問題：spark讀取hive lzo格式表遇到困難
進行了 spark 的開發(fā)，將之前編寫的 id-map 算法投入到我們的項目中實際使用（張志浩、趙磊）

0707：

把 idmap 做了完善，將其輸入輸出路徑與實際的 hdfs 路徑進行對應(yīng)（以前是在win10本地目錄寫了幾個txt文件進行測試）（張志浩、趙磊）
進行spark任務(wù)編寫（各自完成所分配的spark任務(wù)，遇到問題開會討論）

0708：

進行spark任務(wù)編寫（各自完成所分配的spark任務(wù)，遇到問題開會討論）

0709：

進行spark任務(wù)編寫（各自完成所分配的spark任務(wù)，遇到問題開會討論）

0710：

進行spark任務(wù)編寫（各自完成所分配的spark任務(wù)，遇到問題開會討論）

0711+0712：（這周末任務(wù)少）

完善spark任務(wù)
討論怎么樣進行數(shù)據(jù)遷移
- 學(xué)習(xí)了 sqoop 的相關(guān)知識，了解數(shù)據(jù)遷移的方法，但后來考慮到sqoop的底層依然是 mr，后選用spark jdbc做數(shù)據(jù)遷移
完善文檔

第八周0713-0717：

0713：

設(shè)計數(shù)據(jù)遷移邏輯（各自完成自己所分配部分）
- 問題：討論橫表的更新方案，并且將其實現(xiàn)
  例如趙磊的base_retention_installation_day表，該表用作留存分析-留存用戶中的新用戶存留展示

0714：

測試寫好的spark任務(wù)：因為前幾天服務(wù)器集群崩了（我們需要hive數(shù)倉），所以我們寫好的spark任務(wù)一直沒有測試（執(zhí)行）
- 補充：我們不能在win本地用idea跑spark任務(wù)，會因為hive表為lzo壓縮格式而報錯

0715：編寫各自的ads層數(shù)倉表到mysql的數(shù)據(jù)遷移任務(wù)代碼（用SparkSQL進行遷移，以前選的是sqoop，但是sqoop的底層是mapreduce，速度大大慢于spark，所以我們最終選擇了SparkSQL）

0716：去集群測試我們遷移任務(wù)代碼

0717：測試atlas的使用，最終失敗了，atlas無法監(jiān)控hive表之間的血緣關(guān)系，我們測試了一下原因：用SparkSQL操作hive表，atlas就無法監(jiān)控，但是直接在hive命令好用hiveSQL操作hive表，atlas就可以監(jiān)控

第九周0720-0725：（完結(jié)）

0720、0721：編寫、部署azkaban任務(wù)
0722：編寫PPT、錄制答辯視頻
0723：編寫《實訓(xùn)階段總結(jié)報告》和《實訓(xùn)總結(jié)報告》
0724：答辯（在騰訊會議和實訓(xùn)項目經(jīng)理對線）
0724：編寫《13.T01模塊部署流程手冊.docx》和《14.T01用戶使用手冊.docx》

《v1數(shù)據(jù)分析運營系統(tǒng)的需求分析》
1.整體趨勢：
基礎(chǔ)統(tǒng)計數(shù)值：包括7日平均新增用戶、活躍用戶等，一周內(nèi)、一個月內(nèi)的統(tǒng)計量總數(shù)，總用戶數(shù)。
指定時間區(qū)間內(nèi)（默認30天內(nèi)每日）：
新增用戶、活躍用戶、啟動次數(shù)、累計用戶
折線圖，明細數(shù)據(jù)列表
Top版本環(huán)形圖：新增用戶、活躍用戶、累計用戶每個版本占比
Top渠道環(huán)形圖：新增用戶、活躍用戶、累計用戶每個渠道占比
2.用戶分析：
a.新增用戶：
指定時間段、指定渠道和版本，每日新增用戶折線圖、明細數(shù)據(jù)表格
次日存留率折線圖、明細
b.活躍用戶：
指定時間段、指定渠道和版本下，
活躍趨勢、活躍構(gòu)成、活躍粘度、分時活躍用戶、周，月活躍度
c.啟動次數(shù)：
指定時間段、指定渠道和版本下，每（小時、天、周、月）的啟動次數(shù)
d.版本分布：
指定時間段、版本下，每天新增用戶、活躍用戶、啟動次數(shù)折線圖
今日、昨日截至今日版本累計用戶(%)，新增用戶，活躍用戶(%)，啟動次數(shù)
3.留存分析：
a.留存用戶
指定時間段、指定渠道和版本下，每一個時間段（天、周、月）新用戶和活躍用戶數(shù)在接下來一段時間（天、周、月）的留存數(shù)/留存率，以表格形式和折線形式呈現(xiàn)。
b.用戶新鮮度：
報表展示每天活躍用戶的成分構(gòu)成，并提供用戶成分分析控件做進一步的分析。某日的活躍用戶來源于當(dāng)天新增用戶、1天前新增用戶…30天前新增用戶、30+天前新增用戶。
c.用戶活躍度：
報表展現(xiàn)每個天級時間點的當(dāng)日活躍用戶的活躍程度。
4.渠道分析：
a.渠道列表：
指定時間段、指定版本，各渠道新增用戶、活躍用戶、啟動次數(shù)
5.用戶參與度
a.使用時長：
指定某一天、指定渠道和版本下，單次使用時長分布柱形圖，明細表格。
該天每個活躍用戶使用時長分布柱形圖、明細表格。
b.使用頻率：
指定日期，指定版本、渠道，當(dāng)日、上周、上個月使用次數(shù)分布柱形圖，明細表格。
c.訪問頁面：
指定時間段（一天、一周、一個月）、指定渠道和版本下，訪問頁面分布柱形圖，明細表格。
d.使用間隔：
查看任意30天內(nèi)用戶相鄰兩次啟動間隔的分布情況，并可以進行版本、渠道及分群的篩選。以柱形圖、明細表格形式展示。
6.終端屬性：
a.設(shè)備終端：
指定時間段（一天、一周、一個月）、指定渠道和版本下，top10機型、分辨率、操作系統(tǒng)的新增用戶/啟動次數(shù)柱狀圖、明細表格。
b.網(wǎng)絡(luò)及運營商：
指定時間段（一天、一周、一個月）、指定渠道和版本下，各種聯(lián)網(wǎng)方式的新增用戶/啟動次數(shù)柱狀圖、明細表格。
c. 地域：
指定時間段（一天、一周、一個月）、指定渠道和版本下，各省市的新增用戶/活躍用戶/啟動次數(shù)柱狀圖（top10省）、明細表格（省市）。 ??

所需安裝環(huán)境為：

jdk1.8.0_151、

mysql-5.7.28、

hadoop-3.2.1、

flume-1.9.0、

azkaban-3.90.0

zookeeper-3.6.1、

hive-3.1.2、

spark-3.0.0

scala-2.11.12

kafka-2.4.1、

（hbase-2.2.5、solar-8.5.2這兩個是atlas安裝的前置）

atlas-2.0.0、

sqoop-1.99.7

每個環(huán)境的作用：
數(shù)據(jù)采集傳輸：

Flume：分布式日志數(shù)據(jù)匯聚
Kafka：實時采集（計算）的緩沖
Sqoop：離線批量抽取數(shù)據(jù)庫

數(shù)據(jù)存儲：

Mysql
HDFS

數(shù)據(jù)計算：

Spark

數(shù)據(jù)可視化：

Echarts

job任務(wù)調(diào)度：

Azkaban

元數(shù)據(jù)管理：

Atlas

?? ??

總結(jié)

以上是生活随笔為你收集整理的大数据项目开发进度（实时更新）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C# 6.0语法新特性体验（二）
下一篇： struts2 中文乱码问题，自定义过滤