爬虫+数据库+大数据分析
總體要求
 利用python編寫爬蟲程序,從招聘網站上爬取數據,將數據存入到MongoDB數據庫中,將存入的數據作一定的數據清洗后做數據分析,最后將分析的結果做數據可視化。
 **
前期準備
**
 1、配置大數據需要的環境
 (1)配置Hadoop環境:可看博客:
 (2)配置zookeeper環境:https://blog.csdn.net/weixin_44701468/article/details/106822805
 (3)配置spark環境:
 (3)配置hive環境:
 (3)配置spark環境:
 2、下載好需要的數據庫:Mysql、MangoDB
 3、準備好需要的數據:
 
 爬取的是招聘網站前程無憂,由于爬取的一個數據不是很多,我就爬取了幾個分別保存到了幾個表中,大約有個百多兆的數據(數據量越多越好),第一次學習
具體實現過程
1、編寫爬蟲框架,爬取數據
 建議博客:https://blog.csdn.net/weixin_43581288/article/details/106950359
 里面有需要爬蟲的字段,保存到的數據庫,以及一些其他的要求
 2、數據存儲
 正確搭建hadoop平臺
 選擇flume協議傳輸形式
 
 啟動flame:
上傳數據至目錄:
 
 
 將數據存儲到hdfs:
 
 3、進行hive查詢:
 1、具體要求(要求:1、利用hive進行分析,2、將hive分析結果利用sqoop技術存儲到mysql數據庫中,并最后顯示分析結果。):
 (1)分析“數據分析”、“大數據開發工程師”、“數據采集”等崗位的平均工資、最高工資、最低工資,并作條形圖將結果展示出來;
 
 
 
 (2)分析“數據分析”、“大數據開發工程師”、“數據采集”等大數據相關崗位在成都、北京、上海、廣州、深圳的崗位數,并做餅圖將結果展示出來。
 
 
 
 (3)分析大數據相關崗位1-3年工作經驗的薪資水平(平均工資、最高工資、最低工資),并做出條形圖展示出來;
 
 
 
 (4)分析大數據相關崗位幾年需求的走向趨勢,并做出折線圖展示出來;
 
 總結:
 這個項目使用爬蟲、數據庫、大數據分析等方法來完成,對爬蟲的認識,使用、數據庫(mangodb)的使用、大數據知識的運用都是很好的。爬蟲有爬蟲框架的搭建,代碼的編寫對我來說都是一個不小的難題,但通過查資料、和同學的探討讓我解決了這些問題,數據庫(mangodb)使用還不是特別熟練,大數據各種環境的搭建也是一個不小的難題,配置的環境也是不少,我也是用來不少的時間來做這個事,在這其中還是有的。
總結
以上是生活随笔為你收集整理的爬虫+数据库+大数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: imacros:初次尝试
- 下一篇: UNICODE工程中,由十六进制的uni
