python抓取网站URL小工具
1、安裝Python requests模塊(通過pip):
環境搭建好了!
2、測試一下抓取URL的過程:
抓取出來的URL有JavaScript代碼,正則上還有待更加完善,有興趣的可以研究下~!
工具源代碼:
#coding:utf-8
import sys
import re
import requests
#獲取輸入URL,并獲取網頁text
input = raw_input("please input URL format like this(http://www.baidu.com):")
print 'input : %s' % input
r = requests.get(input)
data = r.text
#利用正則查找所有URL
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
count = 0
for url in link_list:
??? file = open("c:\\test.txt", "a")
??? file.write(url+"\n")
??? count = count + 1
??? print url
print '\n'
print 'total URL is:' + str(count)
print '\n'
print 'crawling achieve...'
file.close()
總結
以上是生活随笔為你收集整理的python抓取网站URL小工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: leetcode之回溯backtraci
- 下一篇: 机器学习的一些注意事项