【修改版】10行代码爬取A股上市公司信息
生活随笔
收集整理的這篇文章主要介紹了
【修改版】10行代码爬取A股上市公司信息
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡述
前幾天在網上看了一份代碼,非常認真地學習了一波。
對于一些瑕疵做了修改。
舊版本的問題
- 下載下來的文件每隔20行就出現一個column
- 然后下載次數較多的話,會被別人給禁一會
- 之前的代碼真的是10行。。
新版本中修復了這樣的bug
import pandas as pd import requests import randomurl = 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%d'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Referer': 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=178' } IPs = [{'HTTP': 'HTTP://118.190.95.35:9001'},{'HTTP': 'HTTP://61.135.217.7:80'},{'HTTP': 'HTTP://116.1.11.19:80'}] for i in range(1, 179):# 返回整個網頁中的表格列表dflist = pd.read_html(requests.get(url % i, headers=headers, proxies=random.choice(IPs)).text)# 經觀察可以發現是第四個就是我們想要的表格df = dflist[3]df.to_csv('askci.csv', mode='a', header=1 if i == 1 else None, index=0, encoding='utf_8_sig') 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的【修改版】10行代码爬取A股上市公司信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LCS(最长公共子串)系列问题
- 下一篇: pandas.to_csv()中文编码问