生活随笔
收集整理的這篇文章主要介紹了
Python 爬取淘宝商品信息栏目
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
一、相關(guān)知識點
1.1、Selenium
Selenium是一個強大的開源Web功能測試工具系列,可進行讀入測試套件、執(zhí)行測試和記錄測試結(jié)果,模擬真實用戶操作,包括瀏覽頁面、點擊鏈接、輸入文字、提交表單、觸發(fā)鼠標(biāo)事件等操作,并且能夠?qū)撁娼Y(jié)果進行種種驗證。也就是說,只要在測試用例中把預(yù)期的用戶行為與結(jié)果都描述出來,我們就得到了一個可以自動化運行的功能測試套件。
1.2、ActionChains
Actionchains是selenium里面專門處理鼠標(biāo)相關(guān)的操作如:鼠標(biāo)移動,鼠標(biāo)按鈕操作,按鍵和上下文菜單(鼠標(biāo)右鍵)交互。這對于做更復(fù)雜的動作非常有用,比如懸停和拖放。
1.3、time
返回當(dāng)前時間的時間戳
1.4、lxml
lxml是一個Python庫,使用它可以輕松處理XML和HTML文件,還可以用于web爬取。市面上有很多現(xiàn)成的XML解析器,但是為了獲得更好的結(jié)果,開發(fā)人員有時更愿意編寫自己的XML和HTML解析器。這時lxml庫就派上用場了。這個庫的主要優(yōu)點是易于使用,在解析大型文檔時速度非???#xff0c;歸檔的也非常好,并且提供了簡單的轉(zhuǎn)換方法來將數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類型,從而使文件操作更容易。
1.5、csv
csv文件格式是一種通用的電子表格和數(shù)據(jù)庫導(dǎo)入導(dǎo)出格式。最近我調(diào)用RPC處理服務(wù)器數(shù)據(jù)時,經(jīng)常需要將數(shù)據(jù)做個存檔便使用了這一方便的格式。
1.6、requests
Requests 庫是一個優(yōu)雅而簡單的 Python HTTP 庫,主要用于發(fā)送和處理 HTTP 請求
二、部分代碼解析
加載Chrome驅(qū)動,動態(tài)解析爬取的網(wǎng)址
def commonsdk(self
,url
):browser
= webdriver
.Chrome
('D:/chromedriver.exe')try:browser
.get
(url
)except Exception
as e
:browser
.execute_script
('window.stop()') print(e
, 'dynamic web load timeout')return browser
;
實現(xiàn)模擬登錄
通過定位淘寶登陸界面的url的表單框,然后輸入自己的用戶名及密碼,再模擬鼠標(biāo)點擊事件,繼而提交表單信息實現(xiàn)用戶登錄。
def logon(self
,url
,a_href_list_next
):username
= "淘寶賬戶名"password
= "密碼"browser1
= self
.commonsdk
(url
)browser1
.find_element_by_id
('fm-login-id').send_keys
(username
)browser1
.find_element_by_id
('fm-login-password').send_keys
(password
)browser1
.find_element_by_xpath
('//*[@id="login-form"]/div[4]/button').click
()self
.Buy_information
(a_href_list_next
,browser1
)
爬取側(cè)邊欄目錄
1、首先定位到目錄分類欄,鼠標(biāo)光標(biāo)移動到需要選中的那一欄,繼而會出現(xiàn)隱藏的div,(這里需要實現(xiàn)鼠標(biāo)懸停事件)action.move_to_element(li_list).perform()實現(xiàn)了這一功能。
2、然后定位自己所需要爬取的側(cè)邊欄的那一行或多行,通過實現(xiàn)鼠標(biāo)懸停事件后獲取其中內(nèi)容。
3、獲取其超鏈接進入下一界面
def List(self
,url
):browser
= self
.commonsdk
(url
)action
= ActionChains
(browser
)li_list
= browser
.find_elements_by_css_selector
('.service-bd li')[1]action
.move_to_element
(li_list
).perform
()time
.sleep
(5)div_list
= browser
.find_element_by_css_selector
('.service-fi-links')h5_list
= div_list
.find_elements_by_css_selector
('h5')p_list
= div_list
.find_elements_by_css_selector
('p')a_href_list
= div_list
.find_elements_by_css_selector
('a')a_href_list_next
= div_list
.find_elements_by_css_selector
('a')[1].get_attribute
('href')print(li_list
.text
)for j
in range(len(p_list
)):if j
<len(p_list
):print(h5_list
[j
].text
)print(p_list
[j
].text
)for i
in range(len(a_href_list
)):print(a_href_list
[i
].get_attribute
('href'))logon
= browser
.find_element_by_id
('J_SiteNavBd')logon_url
= logon
.find_element_by_css_selector
('a').get_attribute
('href')browser
.close
()self
.logon
(logon_url
,a_href_list_next
)
獲取商品信息
1、這里使用的定位方式是Xpath方式,使用了絕對定位來獲取標(biāo)簽的位置。
def Buy_information(self
,url
,browser
):browser
.get
(url
)div_list
= browser
.find_element_by_xpath
('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]')img
= div_list
.find_element_by_css_selector
('img')img_url
= "https:"+img
.get_attribute
('data-src')price
= div_list
.find_element_by_xpath
('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').textnumber
= div_list
.find_element_by_xpath
('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').textshoping_information
= div_list
.find_element_by_xpath
('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').textshop
= div_list
.find_element_by_xpath
('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').textadress
= div_list
.find_element_by_xpath
('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').textpath
= self
.img_baocun
(img_url
)data
={'圖片路徑':path
,'價格':price
,'購買人數(shù)':number
,'商品信息':shoping_information
,'商家':shop
,'籍貫':adress
}self
.write_dictionary_to_csv
(data
,'information')
下載圖片
通過獲取到的圖片的url,然后將圖片下載到指定的文件夾內(nèi)
def img_baocun(self
,url
):root
= "文件夾下載的路徑"//電腦上的絕對路徑path
= root
+ url
.split
('?')[0].split
('/')[-1].strip
('')if not os
.path
.exists
(root
):os
.mkdir
(root
)if not os
.path
.exists
(path
):r
= requests
.get
(url
)r
.raise_for_status
()with open(path
,'wb') as f
:f
.write
(r
.content
)return path
將需要爬取的信息寫入到csv文件中,便于查看
1、商品信息以字典的形式寫入csv文件中方便查看。
def write_dictionary_to_csv(self
,dict,filename
):file_name
='{}.csv'.format(filename
)with open(file_name
, 'a',encoding
='utf-8') as f
: file_exists
= os
.path
.isfile
(filename
)w
=csv
.DictWriter
(f
, dict.keys
(),delimiter
=',', quotechar
='"', lineterminator
='\n',quoting
=csv
.QUOTE_ALL
, skipinitialspace
=True)if not file_exists
:w
.writeheader
()w
.writerow
(dict)print('當(dāng)前行寫入csv成功!')
三、程序思路
1、首先定位到側(cè)邊欄的位置,然后使用action.move_to_element(li_list).perform()的方法實現(xiàn)鼠標(biāo)的動態(tài)懸停,讓隱藏的div顯示出來,再獲取其中的信息。
2、然后再實現(xiàn)模擬登錄的功能,登錄賬號,獲取其中的商品信息(由于淘寶的反扒機制,多次登錄會讓用戶掃碼登錄,此功能暫未實現(xiàn))
3、商品信息的獲取使用Xpath的絕對定位方式來獲取。
Xpath的使用方式:右鍵需要定位的標(biāo)簽->選中Copy選項->Copy Xpath
四、發(fā)展空間
1、解決淘寶反扒機制的問題。傳送門,解決問題
2、文件的寫入換用其他方式。
總結(jié)
以上是生活随笔為你收集整理的Python 爬取淘宝商品信息栏目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。