python重定向cookie_模拟登陆中 302 重定向和 cookies 的一些困惑
我想寫一個查詢話費和流量的爬蟲,關鍵是實現模擬登陸的這個部分。
在登陸過程中,點擊登陸之后,登陸表單會 post 到一個地址(這一步瀏覽器不顯示),然后會 302 跳轉到登陸成功的頁面。
我現在想得到登陸成功的 cookies ,不知道該怎么提取,requests.session()并沒有得到登陸成功的 cookies.
得不到登陸成功的 cookies ,代碼就不能爬取登陸之后的查詢信息。
我有三個問題
1.post 表單這個過程,也就是圖一中的 cookies 是怎么生成的,因為我發現 post 表單過程中的 cookies 比在進入登陸頁面中的多。
2.登陸過程中有兩次 302 ,最后再 200 到登陸成功頁面,我該怎么得到 200 的這個 cookie 。
3.request.sission()是會自動管理登陸過程中的 cookies 嗎,用不用單獨提取登陸之后的 cookies 。
代碼如下,謝謝大家
#coding=utf-8
import requests
import re
# request headers
Head ={'Accept-Language': 'zh-CN,zh;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch', 'Host': 'ah.189.cn',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Upgrade-Insecure-Requests': '1', 'Connection': 'keep-alive', 'Cache-Control': 'max-age=0',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36'}
# Chrome 打開登陸頁面提取的 cookies
Cook = {'Hm_lvt_333c7327dca1d300fd7235c159b7da04': '1469964315',
'lid': '', '_gscu_1758414200': '69964315ee6pb621', 'v_lasttime': '1469964315502',
'_gscs_1758414200': '69964315tq317521|pv:1', 'Hm_lvt_c7c8eed8670bd7fffefc8b202fe0904d': '1469964315',
'v_url_code': 'http%3A//ah.189.cn/sso/login%3FreturnUrl%3D%252Fbiz%252Fservice%252Faccount%252Finit.action',
'JSESSIONID_SSO': 'Jh1GXdgDZJqdZqpLvRQvZzdlvT7y6BxHhCny9MhbKh1Kw1hSLNt2Q1c6231LrHQWrpDL4m115pz0YTLJN7jx2fmpTfPBx1JwlYvvkLBRySmy18tnW1c2Q7qPvQqK9kJP!463350529',
'v_trackId': '1BD7B46E79FE234CE9C67E49D95245FB', 'Hm_lpvt_333c7327dca1d300fd7235c159b7da04': '1469964315',
'_gscbrs_1758414200': '1', 'Hm_lpvt_c7c8eed8670bd7fffefc8b202fe0904d': '1469964315',
'JSESSIONID_PERSONWEB': 'p2MyXdgGd8f5phjTTv2CJMr6J8QYhSyLX0kkZHlSwpppjhYGf3qm!1538637772'}
#登陸提交的表單
postdata = {'remPwd': '0',
'loginName': '',
'returnUrl': '/biz/service/account/init.action',
'validCode': '',
'loginType': '4', 'sysId': '1003', 'passType': '0',
'csrftoken': '',
'accountType': '9', 'ssoAuth': '0',
'passWord': '',
'latnId': '551'}
#登陸頁面
baseurl = 'http://ah.189.cn/sso/login?returnUrl=%2Fbiz%2Fservice%2Faccount%2Finit.action'
#登陸表單 post 的地址
posturl = 'http://ah.189.cn/sso/LoginServlet'
sess = requests.session()
sess.headers.update(Head)
def getP(url,cookies):
"""帶 session()requests 的 get 方法"""
pre = sess.get(url,cookies = cookies)
return pre
def getVerifyURL(url):
"""從主頁提取驗證碼地址"""
reg = r'/sso/VImage.servlet\?random=0\.[0-9]+' #正則表達式匹配驗證碼圖片鏈接
img = re.search(reg,getP(url,cookies = Cook).content).group()
imge = "http://ah.189.cn" + img #得到驗證碼圖片鏈接
return imge
def getCodePic():
"""下載驗證碼圖片"""
verifyURL = getVerifyURL(baseurl)
codePic = getP(verifyURL,cookies = Cook).content
print verifyURL
with open('x.jpeg','wb') as jpg:
jpg.write(codePic)
def postData():
"""post 表單信息更新"""
username = raw_input("輸入手機號")
code = raw_input("輸入密碼")
passwd = raw_input("輸入驗證碼")
postdata['loginName'] = str(username)
postdata['validCode'] = str(code)
postdata['passWord'] = str(passwd)
getCodePic()
postData()
postover = sess.post(posturl,postdata) #post 表單
cookLogin = postover.cookies #查看 post 表單之后的 cookies
print cookLogin
con = sess.get('http://ah.189.cn/biz/service/account/init.action')
#登陸成功的頁面
print "登陸成功",con
總結
以上是生活随笔為你收集整理的python重定向cookie_模拟登陆中 302 重定向和 cookies 的一些困惑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jq 通过标签名称获取标签_如何快速通过
- 下一篇: python怎么写入到文件中_Pytho