python写彩票抓取_Python|爬取彩票数据
pyhton|爬取彩票數據
背景:作者之前看到過不少朋友介紹利用python環境來爬取彩票數據的文章,方法大致都很類似,今天我也講一下關于傳統方法解析網頁獲得數據,同時給大家介紹一種可能被大家忽略的方法,對于網頁結構化的表的數據可以獲得比較高的數據獲取效率。
環境:Python3.7/MongoDB
簡要說明一下爬蟲的步驟:
1.選取目標網頁
2.觀察結構(網頁結構、數據結構)
3.選用解析工具(雖然有很多朋友喜歡使用Beautyfulsoup,但是在下還是建議使用xpath,因為效率比較高一點)
4.數據的持久化(俗話說光爬數據不儲存就是在耍流氓.需要考慮用什么方式儲存從頁面上獲取的信息,Excel、MySql還是MongoDB,本例將使用MongoDB做為儲存工具) 在正式開始工作之前我們來看看我們需要爬取的頁面是什么樣子 !
方法一:
方法一我們將直接通過常規方法對頁面進行解析獲取數據。下面我們通過翻頁來查看網頁地址都發生了些什么變化:
通過上面的觀察,我們可以發現在我們翻頁獲取新的網頁信息的時候,只有list_x這個地方發生了變化,那么我們的工作就變得簡單了,我們只需要替換到list_x中x的值就可以獲取到新的一頁的數據了。那么我們的思路就是我們只需要解析一個網頁的數據并獲取,最后做個輪詢,那么我們就可以獲取整個網站的彩票數據了,想想就有點小激動。
那么接下來我們來看一看我們需要的數據都是放在什么樣的地方,我們怎么樣才能提取出來,現在觀察網頁結構,仔細一看也是相當的簡單。我可以看到每一期的彩票信息都是放在一個tr標簽對中,發現這個信息那么接下來代碼工作就可以開始了。
def pare(page):
url = http://kaijiang.zhcw.com/zhcw/html/3d/list_{}.html.format(page)
r = request.get(url,timeout=5)
selector = etree.HTML(r.text)
for td in selector.xpath('//tr')[2:-1]:
yield {'開獎日期': td.xpath('./td[position()=1]/text()')[0],
'期號': td.xpath('./td[position()=2]/text()')[0],
'百': td.xpath('./td[position()=3]/em/text()')[0],
'十': td.xpath('./td[position()=3]/em/text()')[1],
'個': td.xpath('./td[position()=3]/em/text()')[2],
'單選': td.xpath('./td[position()=4]/text()')[0],
'組3': td.xpath('./td[position()=5]/text()')[0],
'組': td.xpath('./td[position()=6]/text()')[0],
'銷售金額(元)': td.xpath('./td[position()=7]/strong/text()')[0]
}
簡單解釋一下上面的代碼,上面我們使用到的解析網頁的工具是xpath,先不說解析的效率,語法個人覺得比Beautyfulsoup好一些,當然這因人而異,也有不少人覺soup好用。既然我們之前分析得出我們需要的信息在tr的每個標簽中,我們先獲取到每個網頁中的所有tr標簽,做個輪詢我們就可以獲取到每個標簽對應的信息了。
下面可以寫一個存數據庫的函數了:
def save_to_mongo(db_name, data, key_words):
''':db_name:數據表名稱:data:由parse傳入的可迭代的數據:key_words:在存入數據庫時用到的關鍵字'''
for d in data:
key_word = {}
if isinstance(key_words, list):
key_word = {x: d[x] for x in key_words}
elif isinstance(key_words, str):
key_word = {key_words: d[key_words]}
[print(x) for x in data if data_base[db_name].update_one(key_word, {'$set': x}, True)]
萬事具備,先可以寫一個main函數了,直接把所有的數據存入mongodb數據庫了。
def main(num):
''':num:我們需要存入數據庫的最近num頁的數據'''
for n in range(1,int(num)+1):
p = parse(page=n)
save_to_mongo(db_name='自己取',data=p,key_words=['期號'])
打完收工,是不是相當簡單!!!
方法二:
這個是一個我感覺被大家忽略了的方法。遇到類似這樣的網頁表單,可能比上面方法仔細去分析網頁結構,查找數據在網頁中存放的位置和特點來的更簡單一點,那么這個方法就是什么呢? 千呼萬喚始出來,這個方法就是pandas中的read_html方法了,是不是很容易被大家忽略掉了,接下來就為大家介紹這種方法。import pandas as pd
def read(page):
''''''
url = http://kaijiang.zhcw.com/zhcw/html/3d/list_{}.html.format(page)
r = request.get(url,timeout=5)
df = pd.read_html(r.text)
keys = ['開獎日期','期號','中獎號碼','單選','組選3','組選6','銷售額(元)','返獎比例']
for d in df[0][2:-1].to_dict(orient='records'):
yield dict(zip(keys,[x for x in d.valus()][:-1]))
我們先來查看一下返回打印出來的結果:
這樣的結果就是我想要的結果了,其實代碼中df這部就可以獲取到一個dataframe數據表單,我把它轉換成了一個個的字典是為了往MongoDB數據庫存取方便,如果你沒有這樣需要,直接到pd.read_html(r.text)就可以了。重復上面的main函數就可以直接存數據庫,這樣的操作是不是比上面的解析網頁結構要簡單了不少,以后遇到類似這樣的網頁表單結構,也可以采取類似的騷操作,就比大家熟悉的方法效率高一些。
總結
以上是生活随笔為你收集整理的python写彩票抓取_Python|爬取彩票数据的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 长安cs75plas2020款1.5T仪
- 下一篇: 基于物化视图优化_CVPR2017|基于
