python关键词大全_Python 批量获取Baidu关键词的排名并入库
1.[代碼][Python]代碼
#-*- coding: UTF-8 -*-
#Python UTF-8 抓取百度關(guān)鍵詞V1.0
#key.txt是抓取文件配置
#author PHPer.yang@gmail.com
import cgi,urllib #URL讀取
import re #正則匹配
import MySQLdb #MySQL
import datetime #時(shí)間
#import time,thread #多線程
"""
MySQL表結(jié)構(gòu)
CREATE TABLE `baidu` (
`id` int(10) unsigned NOT NULL auto_increment,
`url` varchar(200) NOT NULL,
`title` varchar(600) NOT NULL,
`keys` varchar(100) NOT NULL,
`bdurl` varchar(200) NOT NULL,
`date` date NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;
"""
def Yang_Config ():
fp = open('key.txt','r')
for line in fp.read().split('@'):
word = line.split(',') #word 是字典
#for item in word :
#print item.encode("UTF-8")
#print '------'
if len(word) > 1:
yang_u = word[0]
yang_k = word[1]
Yang_Spider(yang_u,yang_k)
#抓取頁(yè)面開(kāi)始
def Yang_Spider(yang_u,yang_k):
url = 'http://www.baidu.com/s?wd=%s+site:%s&&rn=100'% (yang_k,yang_u)
print url
fp = urllib.urlopen(url).read()
#print fp re.search
m = re.findall(r"
()?(.*?)\s*?.*?.*? ((\d{4}\-\d{1,2}\-\d{1,2})|(\d+小時(shí)前)|(\d+分鐘前)) .*?.*? |
總結(jié)
以上是生活随笔為你收集整理的python关键词大全_Python 批量获取Baidu关键词的排名并入库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python123说句心里话的题_如何与
- 下一篇: python 删除n天前文件_Linux