當前位置：首頁 > 运维知识 > 数据库 >内容正文

数据库

爬虫+数据库+大数据分析

發布時間：2024/3/26 数据库 34 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫+数据库+大数据分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總體要求
利用python編寫爬蟲程序，從招聘網站上爬取數據，將數據存入到MongoDB數據庫中，將存入的數據作一定的數據清洗后做數據分析，最后將分析的結果做數據可視化。
**

前期準備

**
1、配置大數據需要的環境
（1）配置Hadoop環境：可看博客：
（2）配置zookeeper環境：https://blog.csdn.net/weixin_44701468/article/details/106822805
（3）配置spark環境：
（3）配置hive環境：
（3）配置spark環境：
2、下載好需要的數據庫：Mysql、MangoDB
3、準備好需要的數據：

爬取的是招聘網站前程無憂，由于爬取的一個數據不是很多，我就爬取了幾個分別保存到了幾個表中，大約有個百多兆的數據（數據量越多越好），第一次學習

具體實現過程

1、編寫爬蟲框架，爬取數據
建議博客：https://blog.csdn.net/weixin_43581288/article/details/106950359
里面有需要爬蟲的字段，保存到的數據庫，以及一些其他的要求
2、數據存儲
正確搭建hadoop平臺
選擇flume協議傳輸形式

啟動flame：

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

上傳數據至目錄：

將數據存儲到hdfs：

3、進行hive查詢：
1、具體要求（要求：1、利用hive進行分析，2、將hive分析結果利用sqoop技術存儲到mysql數據庫中，并最后顯示分析結果。）：
（1）分析“數據分析”、“大數據開發工程師”、“數據采集”等崗位的平均工資、最高工資、最低工資，并作條形圖將結果展示出來；

（2）分析“數據分析”、“大數據開發工程師”、“數據采集”等大數據相關崗位在成都、北京、上海、廣州、深圳的崗位數，并做餅圖將結果展示出來。

（3）分析大數據相關崗位1-3年工作經驗的薪資水平（平均工資、最高工資、最低工資），并做出條形圖展示出來；

（4）分析大數據相關崗位幾年需求的走向趨勢，并做出折線圖展示出來；

總結：
這個項目使用爬蟲、數據庫、大數據分析等方法來完成，對爬蟲的認識，使用、數據庫（mangodb）的使用、大數據知識的運用都是很好的。爬蟲有爬蟲框架的搭建，代碼的編寫對我來說都是一個不小的難題，但通過查資料、和同學的探討讓我解決了這些問題，數據庫（mangodb）使用還不是特別熟練，大數據各種環境的搭建也是一個不小的難題，配置的環境也是不少，我也是用來不少的時間來做這個事，在這其中還是有的。

總結

以上是生活随笔為你收集整理的爬虫+数据库+大数据分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： imacros：初次尝试
下一篇： UNICODE工程中，由十六进制的uni

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

数据库

爬虫+数据库+大数据分析

前期準備

具體實現過程

總結