智联招聘数据Hbase数据分析+可视化
需求:
背景描述
近年來隨著IT產業的加速發展,全國各地對IT 類的人才需求也越來越多,
“XHS 集團”為了明確公司在各區域的發展布局,在多個省份進行IT公司崗位
情況調研分析。你所在的小組將承擔模擬調研分析的任務,通過在招聘網站進
行招聘信息的爬取,獲取到公司名稱、工作地點、崗位名稱、招聘要求、招聘
人數等信息,并通過數據的清洗和分析,最終分析出各地區熱門崗位招聘人數,
各地區平均薪資的差異。
本次為模擬任務,項目組計劃使用分布式節點Hadoop模式,環境搭建采用
服務器集群方式,通過在招聘網站上爬取到的相關信息,實現對數據進行爬取、
清洗、整理、計算、表達、分析,力求實現對各城市IT行業擁有更清晰的掌握。
作為該項目組的技術人員,你們是這次技術方案展示的核心成員,請按照
下面步驟完成本次技術展示任務,并提交技術報告,祝你們成功。
任務一: Hadoop 平臺及組件的部署管理( 15 分)
1) 將指定路徑下的Hbase 安裝包解壓指定路徑下;
2) 把解壓后的 apache-Hbase-2.0.1-bin 文件夾更名為 Hbase;進入 Hbase 文件
夾;
3) 設置Hbase 環境變量,并使環境變量只對當前root 用戶生效;
4) 修改Hbase 安裝目錄下hbase-site.xml;
5) 修改Hbase 安裝目錄下hbase-env.sh;
6) 修改Hbase 安裝目錄下regionservers;
7) 把 hadoop 的hdfs-site.xml 和core-site.xml 放到hbase/conf 下;
8) 啟動Hbase 并保存命令輸出結果。
任務二、數據采集( 15 分)
從主流招聘網站中抓取以下關鍵字:“公司名稱”、“工作城市”、“工作要
求”、“招聘人數”、工資情況”(格式:‘底薪-上限’)、“name”(崗位
名稱)、“detail”(職位詳情),并保存為可用格式。
1) 創建項目名為crawposition;
2) 定義任務指定的爬取字段;
3) 構建相應爬蟲請求;
4) 指定文件存儲位置;
5) 爬取關鍵字數據;
6) 將數據存儲到HDFS文件系統。
任務三、數據清洗與分析(2 25 5 分)
1) 編寫數據清洗程序,將編輯完成的程序打包成jar程序包并保存;
2) 對爬取出的數據進行清洗,將清洗后的數據各字段存儲為可用格式;
3) 將清洗后結果保存至Hbase數據庫中;
4) 篩選相應字段,將結果寫入新建cleantable表中,并查看該表數據;
5) 查詢“數據”相關崗位的技能要求,將查詢結果寫入新建table_bigdata
表中;
6) 創建keycount表并分別統計下列單個核心技能的出現次數。
注:核心技能關鍵詞如下:c++、Scala、FFlume、Flink、ETL、數學、數據倉
庫、Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hbase、Spark。
任務 四 、數據 可視化 ( 20 分)
為直觀呈現數據分析的結果,對分析數據可視化呈現。
1) 展示各區域招聘總量,并按降序排列在前端顯示;
2) 展示各地平均工資的差異,并在前端顯示;
3) 展示各地平均工資的差異。
任務 五 : 綜合 分析( 15 )
請結合數據分析結果編寫下列分析報告:
1) 根據分析結果
列舉三個招聘崗位數量最多的城市。
2) 根據各區域平
均工資分析結果,找出平均工資最高的城市。
3) 根據各區域平
均工資分析結果,找出杭州市的平均工資排名第幾。
4) 請簡述,“XHS
集團”要建立研發中心,請你推薦最適合的城市,并說明原因。
?
實現:
鏈接:https://pan.baidu.com/s/1fWoUPRL9KeVsZVpA9ZgXcA?
提取碼:oolu?
復制這段內容后打開百度網盤手機App,操作更方便哦
總結
以上是生活随笔為你收集整理的智联招聘数据Hbase数据分析+可视化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中文版-Because He Lives
- 下一篇: java76-GUL单选按钮和复选按钮