python爬取北京租房信息
租房助手
發現官網的篩選方式不能滿足自己的需求,所以爬取相關網站制作出現在的東西來
效果預覽-> 在線預覽
下面進行詳細分析
一.首先爬取起始地和終點地的路線及沿途地鐵站名稱
1.爬取8684.cn的地鐵查詢: 
  
 pattern = 'http://bjdt.8684.cn/so.php?k=p2p&q={}&q1={}' 
 
- q->起始位置,q1為目標位置。返回的是html頁面。 - 2.采用scrapy進行xpath解析,提取相關的html標簽和值 
 
- 如提取線路方案列表的xpath表達式
3.提取出線路方案列表后,針對列表中的每個元素進行提取站點的操作,可參考提取a標簽,但剔除帶有class屬性的html值。
4.將所有的站點放到一個列表中,同時針對列表元素進行去重操作,記得記錄路線描述和距離,可定義相關對象來維護。
二.通過站點查詢租房信息
1.主要對自如官網進行爬取。
pattern=http://www.ziroom.com/z/nl/z2.html?qwd={}- qwd可能需要進行urlencode
- 返回的是html頁面,需要對頁面進行分析,首先提取出總頁數,然后根據總頁數去請求其余頁面。上面的url附加q參數,q參數為頁面索引,即是單獨頁面鏈接 - 2.針對單個頁面提取各個單條項目的信息。 ls = Selector(text=body).xpath("//ul[@id='houseList']/li").extract();
 如提取單個頁面的信息列表
- 針對列表進行單個處理,提取感興趣的信息。 - 3.處理封裝返回。 
 針對提取的信息,進行篩選,例如對價格進行篩選,對大小進行篩選,不用做排序。采用前端框架來進行排序。后臺做的處理已經夠多了。
三.接入到公眾號中
可以接入到公眾號中,提高公眾號的影響力,具體的公眾平臺對接請參考訪問github開源項目
總結
以上是生活随笔為你收集整理的python爬取北京租房信息的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 数学建模算法汇总
- 下一篇: 小程序开发外包需要注意哪些问题?
