有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客
有關(guān)網(wǎng)頁抓取問題的一些經(jīng)驗總結(jié) - passover【畢成功的博客】 - 51CTO技術(shù)博客
有關(guān)網(wǎng)頁抓取問題的一些經(jīng)驗總結(jié)
2011-05-05 18:07:38
標簽:爬蟲 網(wǎng)頁抓取
??? 在寫爬蟲的時候經(jīng)常會遇到有些頁面下載下來會有問題,如果你把請求模擬成和瀏覽器一樣,肯定是可以把頁面正確獲取的,但是其中往往很多參數(shù)都沒有什么用,真正影響的就幾個關(guān)鍵參數(shù)。這里特別把自己的經(jīng)驗做一下總結(jié)。
??? 重點需要關(guān)注的參數(shù)有:
1. url: 這主要就是URL編碼會導(dǎo)致問題,在URL中包含中文的時候可能會出現(xiàn)
2. user-agent: 大網(wǎng)站通常會對不同的瀏覽器做優(yōu)化,所以會有區(qū)別
3. cookie: 有些網(wǎng)站會用到cookie信息,比如有些網(wǎng)站會把session信息記錄在cookie中
4. refer: 有些網(wǎng)站為了防止跨站攻擊,會對refer的頁面進行檢查
5. accept-charset和accept-encoding: 個別網(wǎng)站會對接收的編碼會有特殊處理
6. sessionID: 這個有時會設(shè)在參數(shù)中,有些網(wǎng)站會用到這個值,當(dāng)然還有其他參數(shù)可能會有用到。
??? 上面都是經(jīng)驗之談,希望能對大家有所幫助。
總結(jié)
以上是生活随笔為你收集整理的有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Exchange日常管理之二十一:管理邮
- 下一篇: SharePoint 2010 内容编辑