大数据项目实战——基于某招聘网站进行数据采集及数据分析(一)
大數(shù)據(jù)項目實戰(zhàn)
第一章 項目概述
文章目錄
- 大數(shù)據(jù)項目實戰(zhàn)
- 第一章 項目概述
- 學習目標
- 一、項目需求和目標
- 二、預備知識
- 三、項目架構設計及技術選取
- 四、開發(fā)環(huán)境和開發(fā)工具介紹
- 五、項目開發(fā)流程
- 總結
學習目標
掌握項目需求和目標
了解項目架構設計和技術選型
了解項目環(huán)境和相關開發(fā)工具
理解項目開發(fā)流程
在人力資源管理領域,網(wǎng)絡招聘近年來早已憑借其范圍廣、信息量大、時效性強、流程簡單而效果顯著等優(yōu)勢,成為企業(yè)招聘的核心方式。隨著大數(shù)據(jù)漸漸融入人類社會生活的各個領域,如何使用大數(shù)據(jù)優(yōu)化企業(yè)招聘管理,提升企業(yè)招聘有效性,是值得深入探討的現(xiàn)實課題。文章通過一個招聘網(wǎng)站分析項目,完整演示如何使用大數(shù)據(jù)平臺對國內(nèi)大數(shù)據(jù)職位進行分析。
一、項目需求和目標
本項目是以國內(nèi)某互聯(lián)網(wǎng)招聘網(wǎng)站全球范圍內(nèi)的大數(shù)據(jù)相關招聘信息作為基礎數(shù)據(jù),其招聘信息能較大程度地反映出市場對大數(shù)據(jù)相關職位的需求情況及能力要求,利用這些招聘信息數(shù)據(jù)通過大數(shù)據(jù)分析平臺重點分析以下幾點。
(1)分析大數(shù)據(jù)職位的區(qū)域分布情況。
(2)分析大數(shù)據(jù)職位薪資區(qū)間分布情況。
(3)分析大數(shù)據(jù)職位相關公司的福利情況。
(4)分析大數(shù)據(jù)職位相關技能要求情況。
通過本次項目的實踐,可以鍛煉以下方面的能力。
(1)掌握 Linux 操作系統(tǒng)的安裝和基本操作。
(2)掌握 Hadoop 完全分布式集群的安裝部署。
(3)掌握 HDFS Shell 基礎操作命令。
(4)掌握基于 Java 語言開發(fā) MapReduce程序的方法。
(5)掌握使用 Eclipse 開發(fā) Maven程序的方法。
(6)掌握使用 Eclipse 開發(fā) Maven 程序的方法。
(7)了解數(shù)據(jù)預處理的含義。
(8)了解 HTTP 相關概念。
(9)掌握 Sqoop 安裝及數(shù)據(jù)遷移的使用方法。
(10)掌握關系型數(shù)據(jù)庫 MySQL 的安裝及使用。
(11)掌握基于 SSM 框架進行網(wǎng)站開發(fā)的方法。
(12)掌握利用 ECharts 進行數(shù)據(jù)可視化開發(fā)的方法。
(13)熟悉數(shù)據(jù)分析系統(tǒng)的架構。
(14)掌握數(shù)據(jù)分析系統(tǒng)的業(yè)務流程。
二、預備知識
(1)熟悉 Java 相面對象編程思想。
(2)熟悉大數(shù)據(jù)相關技術,如 Hadoop Hive Sqoop 的基本理論概念及原理。
(3)掌握 HDFS 與 MapReduce 的 Java API 程序開發(fā)。
(4)熟悉 Linux 操作系統(tǒng) Shell 命令的使用。
(5)掌握 Hadoop Hive Sqoop 在 Linux 環(huán)境下的基本操作。
(6)熟悉關系型數(shù)據(jù)庫 MySQL 的原理,掌握 SQL 語句的編寫。
(7)了解網(wǎng)站前端開發(fā)相關技術,例如 HTML JSP JQuery CSS 等。
(8)了解網(wǎng)站后端開發(fā)框架 Spring + Spring MVC + MyBatis 整合使用。
(9)熟悉 Eclipse 開發(fā)工具的應用。
(10)熟悉 Maven 項目管理工具的使用。
三、項目架構設計及技術選取
在大數(shù)據(jù)開發(fā)中,通常首要任務是明確分析目的,即想要從大量數(shù)據(jù)中得到什么樣的結果,并且進行展示說明。只有在明確了分析目的后,開發(fā)人員才能準確地根據(jù)具體的需求去過濾數(shù)據(jù),并且通過大數(shù)據(jù)技術進行數(shù)據(jù)分析和處理,最終處理結果以圖表等可視化形式發(fā)展出來。本項目架構設計如圖所示。
四、開發(fā)環(huán)境和開發(fā)工具介紹
系統(tǒng)環(huán)境:Win10、Win7、Linux(CentOs 6.7)
開發(fā)工具:Eclipse(jee-neon-3)、JDK(1.8)、Maven(3.3.9)、VMware Workstation(12)
集群環(huán)境:Hadoop(2.7.4)、Hive(1.2.1)、Sqoop(1.4.6)、MySQL(5.7.25)
Web環(huán)境:Tomcat(7.0.47)、Spring(4.2.4)、Spring MVC(4.2.4)、MyBatis(3.2.8)、ECharts(4.2.1)
五、項目開發(fā)流程
1、搭建大數(shù)據(jù)實驗環(huán)境
(1)Linux系統(tǒng)虛擬機的安裝與克隆
(2)配置虛擬機網(wǎng)絡與SSH服務
(3)搭建Hadoop集群
(4)安裝MySQL數(shù)據(jù)庫
(5)安裝Hive
(6)安裝Sqoop
2、編寫網(wǎng)絡爬蟲程序進行數(shù)據(jù)采集
(1)準備爬蟲環(huán)境
(2)編寫爬蟲程序
(3)將爬取的數(shù)據(jù)存儲到HDFS
3、數(shù)據(jù)預處理
(1)分析預處理數(shù)據(jù)
(2)準備預處理環(huán)境
(3)實現(xiàn)MapReduce預處理程序進行數(shù)據(jù)集成和數(shù)據(jù)轉換操作
(4)實現(xiàn)MapReduce預處理程序的兩種運行模式
4、數(shù)據(jù)分析
(1)構建數(shù)據(jù)倉庫
(2)通過HiveQL進行職位區(qū)域分析
(3)通過HiveQL進行職位薪資分析
(4)通過HiveQL進行公司福利標簽分析
(5)通過HiveQL進行技能標簽分析
5、數(shù)據(jù)可視化
(1)構建關系型數(shù)據(jù)庫
(2)通過Sqoop實現(xiàn)數(shù)據(jù)遷移
(3)創(chuàng)建Maven項目配置項目依賴
(4)編輯配置文件整合SSM框架
(5)完善項目組織框架
(6)編寫程序實現(xiàn)薪資分布展示
(7)編寫程序實現(xiàn)職位區(qū)域分布展示
(8)編寫程序實現(xiàn)福利標簽詞云圖
(9)編寫程序實現(xiàn)技能標簽詞云圖
(10)預覽平臺展示內(nèi)容
總結
本篇主要介紹了項目開發(fā)的基本情況,包括項目需求、項目目標、項目預備知識、項目架構設計、技術選取、開發(fā)環(huán)境、開發(fā)工具以及開發(fā)流程。通過本篇的學習,可以明確項目需求、了解項目開發(fā)相關環(huán)境以及流程,后續(xù)將基于本次介紹的項目情況進行項目的開發(fā)。
總結
以上是生活随笔為你收集整理的大数据项目实战——基于某招聘网站进行数据采集及数据分析(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql中使用触发器实例
- 下一篇: 在Delphi中使用indy SMTP发