當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

智联招聘数据Hbase数据分析+可视化

發布時間：2023/12/14 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了智联招聘数据Hbase数据分析+可视化小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

需求：

背景描述
近年來隨著IT產業的加速發展，全國各地對IT 類的人才需求也越來越多，
“XHS 集團”為了明確公司在各區域的發展布局，在多個省份進行IT公司崗位
情況調研分析。你所在的小組將承擔模擬調研分析的任務，通過在招聘網站進
行招聘信息的爬取，獲取到公司名稱、工作地點、崗位名稱、招聘要求、招聘
人數等信息，并通過數據的清洗和分析，最終分析出各地區熱門崗位招聘人數，
各地區平均薪資的差異。
本次為模擬任務，項目組計劃使用分布式節點Hadoop模式，環境搭建采用
服務器集群方式，通過在招聘網站上爬取到的相關信息，實現對數據進行爬取、
清洗、整理、計算、表達、分析，力求實現對各城市IT行業擁有更清晰的掌握。
作為該項目組的技術人員，你們是這次技術方案展示的核心成員，請按照
下面步驟完成本次技術展示任務，并提交技術報告，祝你們成功。
任務一： Hadoop 平臺及組件的部署管理（ 15 分）
1）將指定路徑下的Hbase 安裝包解壓指定路徑下；
2）把解壓后的 apache-Hbase-2.0.1-bin 文件夾更名為 Hbase；進入 Hbase 文件
夾；
3）設置Hbase 環境變量，并使環境變量只對當前root 用戶生效；
4）修改Hbase 安裝目錄下hbase-site.xml；
5）修改Hbase 安裝目錄下hbase-env.sh；
6）修改Hbase 安裝目錄下regionservers；
7）把 hadoop 的hdfs-site.xml 和core-site.xml 放到hbase/conf 下；
8）啟動Hbase 并保存命令輸出結果。
任務二、數據采集（ 15 分）
從主流招聘網站中抓取以下關鍵字：“公司名稱”、“工作城市”、“工作要

求”、“招聘人數”、工資情況”（格式：‘底薪-上限’）、“name”(崗位
名稱)、“detail”(職位詳情)，并保存為可用格式。
1) 創建項目名為crawposition；
2) 定義任務指定的爬取字段；
3) 構建相應爬蟲請求；
4) 指定文件存儲位置；
5) 爬取關鍵字數據；
6) 將數據存儲到HDFS文件系統。
任務三、數據清洗與分析（2 25 5 分）
1) 編寫數據清洗程序，將編輯完成的程序打包成jar程序包并保存；
2) 對爬取出的數據進行清洗，將清洗后的數據各字段存儲為可用格式；
3) 將清洗后結果保存至Hbase數據庫中；
4) 篩選相應字段，將結果寫入新建cleantable表中，并查看該表數據；
5) 查詢“數據”相關崗位的技能要求，將查詢結果寫入新建table_bigdata
表中；
6) 創建keycount表并分別統計下列單個核心技能的出現次數。
注：核心技能關鍵詞如下：c++、Scala、FFlume、Flink、ETL、數學、數據倉
庫、Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hbase、Spark。
任務四、數據可視化（ 20 分）
為直觀呈現數據分析的結果，對分析數據可視化呈現。
1) 展示各區域招聘總量，并按降序排列在前端顯示；
2) 展示各地平均工資的差異，并在前端顯示；
3) 展示各地平均工資的差異。
任務五：綜合分析（ 15 ）
請結合數據分析結果編寫下列分析報告：

1）根據分析結果
列舉三個招聘崗位數量最多的城市。
2）根據各區域平
均工資分析結果，找出平均工資最高的城市。
3）根據各區域平
均工資分析結果，找出杭州市的平均工資排名第幾。
4）請簡述，“XHS
集團”要建立研發中心，請你推薦最適合的城市，并說明原因。

實現：

鏈接：https://pan.baidu.com/s/1fWoUPRL9KeVsZVpA9ZgXcA?
提取碼：oolu?
復制這段內容后打開百度網盤手機App，操作更方便哦

總結

以上是生活随笔為你收集整理的智联招聘数据Hbase数据分析+可视化的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：中文版-Because He Lives
下一篇： java76-GUL单选按钮和复选按钮

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

智联招聘数据Hbase数据分析+可视化

需求：

實現：

總結