爬取百度贴吧
# 帶入需要使用的包
from urllib import request, parse
import os
# 基礎知識
# 變量賦值
# 字符串賦值 爬取的關鍵字
kw = 'lol'
# 數值賦值 爬取的頁數范圍
start = 1
end = 4
# 輸出
# print(kw, start, end)
# 聲明需要爬取的連接
base_url = 'https://tieba.baidu.com/f?'
# 創建文件夾 存放頁面數據
# os.makedirs(kw)
# 聲明一個字典
qs = {'kw': kw}
# 構造pn查詢參數
for i in range(start, end + 1):# print(i)# 算出pn和i之間的關系# 1 --> 0 2 --> 50 3 --> 100 4 --> 150pn = (i - 1) * 50qs['pn'] = str(pn)# 將字典 轉換為 kw=lol&pn=0 字符串qs_data = parse.urlencode(qs)# 構建一個完整的url地址 然后進行請求 返回 https://tieba.baidu.com/f?kw=lol&pn=100full_url = base_url + qs_data# 發起請求 并接受響應response = request.urlopen(full_url)# 讀取響應內容html = response.read().decode('utf-8')# 存入相應的文件當中with open(kw + '/' + str(i) + '.html', 'w', encoding='utf-8') as f:f.write(html)
?
轉載于:https://www.cnblogs.com/zhangboblogs/p/10109080.html
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
- 上一篇: jenkins配置小结
- 下一篇: Python 中的 lstrip、rst