爬取起点中文网的小说
生活随笔
收集整理的這篇文章主要介紹了
爬取起点中文网的小说
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
運行無反應,也不報錯,啥毛病??
import xlwt import requests from lxml import etree import timeall_info_list=[] def get_info(url):html=requests.get(url)selector=etree.HTML(html.text)infos=selector.xpath('//ul[@class="all_img_list cf"]/li')for info in infos:title=info.xpath('div[2]/h4/a/text()')[0]author=info.xpath('div[2]/p[1]/a[1]/text()')[0]style_1=info.xpath('div[2]/p[1]/a[2]/text()')[0]style_2=info.xpath('div[2]/p[1]/a[3]/text()')[0]style=style_1+'.'+style_2complete=info.xpath('div[2]/p[1]/span[1]/text()')introduce=info.xpath('div[2]/p[2]')[0].strip()word=info.xpath('div[2]/p[3]/span/span[1]/text()')[0].strip('萬字')info_list=['title','author','style','complete','imtroduce','word']all_info_list.append(info_list)time.sleep(3) if __name__=="__main__":urls=['https://www.qidian.com/all?page={}'.format(str(i)) for i in range(1,29655)]for url in urls:get_info(url)header=['title','author','style','complete','introduce','word'] book=xlwt.Workbook(encoding='utf-8')sheet=book.add_sheet('Sheet1')for h in range(len(header)):sheet.write(0,h,header[h])i=1for list in all_info_list:j=0for data in list:sheet.write(i,j,data)j+=1i+=1 book.save('H:/python/xiaoshuo.xls')總結
以上是生活随笔為你收集整理的爬取起点中文网的小说的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 艺赛旗RPA 网页处理系列(三):网页检
- 下一篇: 新一代VTL实现“新”的数据保护