[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL
生活随笔
收集整理的這篇文章主要介紹了
[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
? ? ? ? 這系列文章主要講述,如何通過Python爬取招聘信息,且爬取的日期為當前天的,同時將爬取的內容保存到數據庫中,然后制作定時系統每天執行爬取,最后是Python調用相關庫發送短信到手機。
? ? ? ? 最近研究了數據庫的定時計劃備份,聯系爬蟲簡單做了這個實驗,雖然方法是基于單機,比較落后,但可行,創新也比較好。整個系列主要分為五部分,共五篇文章:
? ? ? ??1.Python爬取招聘信息,并且存儲到MySQL數據庫中;
? ? ? ? 2.調用pyinstaller包將py文件打包成exe可執行文件;
? ? ? ? 3.設置Windows系統的計劃,制作定時任務,每天早上定時執行exe爬蟲;
? ? ? ? 4.結合PHP(因畢業設計指導學生的是PHP系統)簡單實現前端招聘信息界面;
? ? ? ? 5.補充知識:Python調用短信貓發送招聘短信到客戶手機,研究ing。
? ? ? ?? 文章比較基礎好玩,希望對您有所幫助,如果文章中存在錯誤或不足之處。
? ? ? ? 爬取結果存儲至MySQL數據庫如下圖所示,注意只有4月22日的信息。
? ? ? ? 運行結果及保存TXT文件如下所示:
? ? ? ? 重點是分析智聯招聘的DOM樹結構。
? ? ? ? 1.分析URL
? ? ? ? URL為:http://sou.zhaopin.com/jobs/searchresult.ashx?in=160400&jl=%E8%B4%B5%E9%98%B3&kw=java&p=2&isadv=0
? ? ? ? 其中,"in=160400" 表示 "行業類別" 選擇"計算機軟件"(可以多選);"jl=貴陽" 表示工作地點選擇貴陽市;"kw=java" 表示職位選擇Java相關專業;"p=2" 表示頁碼,main函數通過循環分析爬取。
? ? ? ? 2.分析DOM樹節點
? ? ? ? 然后瀏覽器右鍵審查元素,可以看到每行職位信息都是在HTML中都是一個<table></table>,其中class為newlist。
? ? ? ? 核心代碼:for tag in soup.find_all(attrs={"class":"newlist"}):
? ? ? ? 定位該節點后再分別爬取內容,并賦值給變量,存儲到MySQL數據庫中。
? ? ? ? 3.具體內容分析
? ? ? ? 獲取職位名稱代碼如下:
? ? ? ? zwmc = tag.find(attrs={"class":"zwmc"}).get_text()
? ? ? ? print zwmc
? ? ? ? 另一段代碼,會輸出節點信息,如:
? ? ? ??zz = tag.find_all('td', {"class":"zwyx"})
? ? ? ? print zz
? ? ? ? #<td class="zwyx">8000-16000</td>
? ? ? ? 對應的HTML DOM樹分析如下圖所示。
? ? ? ? 4.判斷為當前日期則保存到TXT和MySQL中,這是為了后面方便,每天爬取最新的信息并周期執行,然后發送短信給手機。我也是佩服自己的大腦,哈哈~
? ? ? ? 參考前文,并推薦官網。
? ? ? ? Python爬蟲之Selenium+BeautifulSoup+Phantomjs專欄
? ? ? ??[python知識] 爬蟲知識之BeautifulSoup庫安裝及簡單介紹
? ? ? ??[python爬蟲] BeautifulSoup和Selenium對比爬取豆瓣Top250電影信息
? ? ? ? 后面還將繼續探尋、繼續寫文,寫完這種單擊版的定時發送功能,后面研究Python服務器的相關功能。最后希望文章對你有所幫助,如果文章中存在錯誤或不足之處,還請海涵~
? ? ? ? 太忙了,但是年輕人忙才好,多經歷多磨礪多感悟;想想自己都是下班在學習,配女神的時候學習,真的有個好賢內助。胡子來省考,晚上陪他們吃個飯。感覺人生真的很奇妙,昨天加完班走了很遠給女神一個91禮物和一個拼圖,感覺挺開心的。生活、教學、編程、愛情,最后獻上一首最近寫的詩,每句都是近期一個故事。
? ? ? ? 風雪交加雨婆娑,
? ? ? ? 琴瑟和鳴淚斑駁。
? ? ? ? 披星戴月輾轉夢,
? ? ? ? 娜璋白首愛連綿。
? ? ? ?? 同時準備寫本python書給我的女神,一直沒定下來,唯一要求就是她的署名及支持。
? ? ? (By:Eastmount 2017-04-22 下午4點 ? http://blog.csdn.net/eastmount/ )
?
? ? ? ? 最近研究了數據庫的定時計劃備份,聯系爬蟲簡單做了這個實驗,雖然方法是基于單機,比較落后,但可行,創新也比較好。整個系列主要分為五部分,共五篇文章:
? ? ? ??1.Python爬取招聘信息,并且存儲到MySQL數據庫中;
? ? ? ? 2.調用pyinstaller包將py文件打包成exe可執行文件;
? ? ? ? 3.設置Windows系統的計劃,制作定時任務,每天早上定時執行exe爬蟲;
? ? ? ? 4.結合PHP(因畢業設計指導學生的是PHP系統)簡單實現前端招聘信息界面;
? ? ? ? 5.補充知識:Python調用短信貓發送招聘短信到客戶手機,研究ing。
? ? ? ?? 文章比較基礎好玩,希望對您有所幫助,如果文章中存在錯誤或不足之處。
一. 運行結果
? ? ? ? 爬取地址為智聯招聘網站:http://sou.zhaopin.com/
? ? ? ? 爬取結果存儲至MySQL數據庫如下圖所示,注意只有4月22日的信息。
? ? ? ? 運行結果及保存TXT文件如下所示:
二. BeautifulSoup爬蟲詳解
? ? ? ? 完整代碼如下所示:
? ? ? ? 重點是分析智聯招聘的DOM樹結構。
? ? ? ? 1.分析URL
? ? ? ? URL為:http://sou.zhaopin.com/jobs/searchresult.ashx?in=160400&jl=%E8%B4%B5%E9%98%B3&kw=java&p=2&isadv=0
? ? ? ? 其中,"in=160400" 表示 "行業類別" 選擇"計算機軟件"(可以多選);"jl=貴陽" 表示工作地點選擇貴陽市;"kw=java" 表示職位選擇Java相關專業;"p=2" 表示頁碼,main函數通過循環分析爬取。
? ? ? ? 2.分析DOM樹節點
? ? ? ? 然后瀏覽器右鍵審查元素,可以看到每行職位信息都是在HTML中都是一個<table></table>,其中class為newlist。
? ? ? ? 核心代碼:for tag in soup.find_all(attrs={"class":"newlist"}):
? ? ? ? 定位該節點后再分別爬取內容,并賦值給變量,存儲到MySQL數據庫中。
? ? ? ? 3.具體內容分析
? ? ? ? 獲取職位名稱代碼如下:
? ? ? ? zwmc = tag.find(attrs={"class":"zwmc"}).get_text()
? ? ? ? print zwmc
? ? ? ? 另一段代碼,會輸出節點信息,如:
? ? ? ??zz = tag.find_all('td', {"class":"zwyx"})
? ? ? ? print zz
? ? ? ? #<td class="zwyx">8000-16000</td>
? ? ? ? 對應的HTML DOM樹分析如下圖所示。
? ? ? ? 4.判斷為當前日期則保存到TXT和MySQL中,這是為了后面方便,每天爬取最新的信息并周期執行,然后發送短信給手機。我也是佩服自己的大腦,哈哈~
? ? ? ? 參考前文,并推薦官網。
? ? ? ? Python爬蟲之Selenium+BeautifulSoup+Phantomjs專欄
? ? ? ??[python知識] 爬蟲知識之BeautifulSoup庫安裝及簡單介紹
? ? ? ??[python爬蟲] BeautifulSoup和Selenium對比爬取豆瓣Top250電影信息
三. 數據庫操作
? ? ? ??SQL語句創建表代碼如下:
? ? ? ??其中,Python調用MySQL推薦下面這篇文字。
? ? ? ??[python] 專題九.Mysql數據庫編程基礎知識
? ? ? ? 核心代碼如下所示:
? ? ? ? 后面還將繼續探尋、繼續寫文,寫完這種單擊版的定時發送功能,后面研究Python服務器的相關功能。最后希望文章對你有所幫助,如果文章中存在錯誤或不足之處,還請海涵~
? ? ? ? 太忙了,但是年輕人忙才好,多經歷多磨礪多感悟;想想自己都是下班在學習,配女神的時候學習,真的有個好賢內助。胡子來省考,晚上陪他們吃個飯。感覺人生真的很奇妙,昨天加完班走了很遠給女神一個91禮物和一個拼圖,感覺挺開心的。生活、教學、編程、愛情,最后獻上一首最近寫的詩,每句都是近期一個故事。
? ? ? ? 風雪交加雨婆娑,
? ? ? ? 琴瑟和鳴淚斑駁。
? ? ? ? 披星戴月輾轉夢,
? ? ? ? 娜璋白首愛連綿。
? ? ? ?? 同時準備寫本python書給我的女神,一直沒定下來,唯一要求就是她的署名及支持。
? ? ? (By:Eastmount 2017-04-22 下午4點 ? http://blog.csdn.net/eastmount/ )
?
總結
以上是生活随笔為你收集整理的[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [数据库] Navicat for My
- 下一篇: [python爬虫] 招聘信息定时系统