我的第一个爬虫
#!/usr/bin/env python
# _*_ coding:utf8 _*_
import requests
import re
#設(shè)置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"
#用requests.get方法請求數(shù)據(jù)
response = requests.get(url)
#將頁面的數(shù)據(jù)制定編碼設(shè)置為gbk方式。
response.encoding = 'gbk'
#定義html用作接收response的返回結(jié)果(原網(wǎng)頁的html代碼)
html = response.text
#通過正則表達(dá)式對網(wǎng)頁的html代碼進(jìn)行過濾。
a = re.findall(r'引用買大叔的怪年糕的回答:.*?月涌大江流',html,re.S)[0]
#數(shù)據(jù)清洗 將a中的<br />標(biāo)簽進(jìn)行過濾 如果匹配的字符串中有元字符則需要添加\進(jìn)行轉(zhuǎn)義例如:() 則需要寫成a.replace('\(\)','')
b = a.replace('<br />','')
#通過正則表達(dá)式進(jìn)行再過濾。 \d表示以數(shù)字開頭 該句為以數(shù)字開頭以句號結(jié)尾
c = re.findall(r'\d.*?。',a)
#循環(huán)將其輸出
for i in c:
print(i)
輸出結(jié)果:
C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、風(fēng)蕭蕭兮易水寒,壯士一去兮不復(fù)返。
2、一身轉(zhuǎn)戰(zhàn)三千里,一劍曾擋百萬師。
3、我本楚狂人,鳳歌笑孔丘。
4、醉里挑燈看劍,夢回吹角連營。
5、莫遣只輪回???#xff0c;仍留一箭在天山。
6、君不見,高陽酒徒起草中,長揖山東隆準(zhǔn)公。
7、獨倚危樓,不信人間別有愁。
8、寧做真小人,不做偽君子。
9、東風(fēng)吹醒英雄夢,笑對青山萬重天。
10、馬車幽靈影,瀟灑一郎君。
11、一門七進(jìn)士,父子三探花。
12、君子死知己,提劍出燕京。
Process finished with exit code 0
# _*_ coding:utf8 _*_
import requests
import re
#設(shè)置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"
#用requests.get方法請求數(shù)據(jù)
response = requests.get(url)
#將頁面的數(shù)據(jù)制定編碼設(shè)置為gbk方式。
response.encoding = 'gbk'
#定義html用作接收response的返回結(jié)果(原網(wǎng)頁的html代碼)
html = response.text
#通過正則表達(dá)式對網(wǎng)頁的html代碼進(jìn)行過濾。
a = re.findall(r'引用買大叔的怪年糕的回答:.*?月涌大江流',html,re.S)[0]
#數(shù)據(jù)清洗 將a中的<br />標(biāo)簽進(jìn)行過濾 如果匹配的字符串中有元字符則需要添加\進(jìn)行轉(zhuǎn)義例如:() 則需要寫成a.replace('\(\)','')
b = a.replace('<br />','')
#通過正則表達(dá)式進(jìn)行再過濾。 \d表示以數(shù)字開頭 該句為以數(shù)字開頭以句號結(jié)尾
c = re.findall(r'\d.*?。',a)
#循環(huán)將其輸出
for i in c:
print(i)
輸出結(jié)果:
C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、風(fēng)蕭蕭兮易水寒,壯士一去兮不復(fù)返。
2、一身轉(zhuǎn)戰(zhàn)三千里,一劍曾擋百萬師。
3、我本楚狂人,鳳歌笑孔丘。
4、醉里挑燈看劍,夢回吹角連營。
5、莫遣只輪回???#xff0c;仍留一箭在天山。
6、君不見,高陽酒徒起草中,長揖山東隆準(zhǔn)公。
7、獨倚危樓,不信人間別有愁。
8、寧做真小人,不做偽君子。
9、東風(fēng)吹醒英雄夢,笑對青山萬重天。
10、馬車幽靈影,瀟灑一郎君。
11、一門七進(jìn)士,父子三探花。
12、君子死知己,提劍出燕京。
Process finished with exit code 0
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/shiguangliangchunshanbo/p/9535153.html
總結(jié)
- 上一篇: UI组件-UITabbarControl
- 下一篇: 机器人中的轨迹规划(Trajectory