分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”
分析2000余張馬蜂窩游記照片,只為找到泰國芭提雅最美“小姐姐”
?
?
相信去過泰國旅游的小伙伴,無論是泰國的美食還是美景都讓大家流連忘返。另一深刻印象便是泰國人妖啦,據(jù)老司機(jī)透露,泰國人妖秀場(chǎng)主要分布在芭提雅、普吉島、曼谷、清邁等地。
?
而這其中尤其又以芭提雅的蒂芬妮人妖秀最為出名,每年的泰國人妖選美大賽,選出的冠亞季軍,就在芭提雅的蒂芬妮人妖秀劇場(chǎng)里。本文主要基于蒂芬妮人妖秀的游記圖片進(jìn)行分析,尋找出蒂芬妮人妖秀最美人妖。
?
?
?
1
準(zhǔn)備工作
?
本文涉及知識(shí)點(diǎn)較多,主要包括:爬蟲、人臉識(shí)別、圖像處理等。
?
編程環(huán)境為:anaconda。需要安裝的依賴庫有:
-
selenium
-
baidu-aip
-
opencv-python。
?
本次使用的瀏覽器為Chrome瀏覽器,由于Selenium中沒有自帶Chrome驅(qū)動(dòng),需要單獨(dú)下載Chromedriver.exe最新版本,下載地址為:http://npm.taobao.org/mirrors/chromedriver/。
?
?
2
?
?
數(shù)據(jù)獲取,本次數(shù)據(jù)獲取主要基于馬蜂窩旅游網(wǎng),進(jìn)行圖像數(shù)據(jù)獲取。
?
1).利用selenium進(jìn)行爬取
目前只有極少數(shù)網(wǎng)站會(huì)對(duì)Selenium中的WebDriver進(jìn)行識(shí)別反爬,本文采用Selenium控制瀏覽器來訪問網(wǎng)頁,這種方式雖然速度較慢,卻能夠自動(dòng)解析網(wǎng)頁中的JavaScript代碼,其訪問行為與人類無異,難以被反爬蟲程序識(shí)別。頁面解析不作過多介紹,程序如下:
?
?
在保證網(wǎng)絡(luò)穩(wěn)定的情況下,整個(gè)下載過程還是相對(duì)順暢的。至此,除去異常圖片,共下載圖片2004張(這種方法的確很耗時(shí))。
?
?
3
顏值打分
?
?
1).人臉檢測(cè)并對(duì)顏值打分
純手工打造一款人臉檢測(cè)及顏值打分系統(tǒng)是一個(gè)龐大的工程,還好現(xiàn)在市面上已經(jīng)有了一些免費(fèi)的產(chǎn)品。優(yōu)點(diǎn)當(dāng)然是方便,繞過了算法,一個(gè)函數(shù)搞定。缺點(diǎn)也比較明顯,無法搞清楚其對(duì)顏值的評(píng)判算法。不過顏值這個(gè)東西也是仁者見仁智者見智啦。
?
登錄百度AI開放平臺(tái)(http://ai.baidu.com/),進(jìn)入控制臺(tái)—人臉識(shí)別欄目,創(chuàng)建相關(guān)應(yīng)用,最終獲得APP_ID、API_KEY、SECRET_KEY三個(gè)數(shù)據(jù)。
?
?
?
2).調(diào)用百度api
獲取每張圖片的顏值評(píng)分。通過循環(huán)讀取每張圖片,首先判斷圖片是否含有人臉(不含人臉的圖片過濾掉);然后判斷每張圖片的人臉顏值得分;再將“圖片地址、圖片顏值得分”存入數(shù)據(jù)框;得到含有“imagePath、beautyScore”數(shù)據(jù)框;最后再按顏值得分由高到底排序,得到顏值最高人妖圖片。
?
程序運(yùn)行結(jié)果如下:
?
從結(jié)果來看,含有人臉的圖片共969張:
最高得分為93.1分(這也是唯一一位得分90分以上的人妖);
80分以上25張(占比2.58%);
60分以上300張(占比30.96%)
?
?
4
圖像分類處理
?
?
調(diào)用OpenCV圖像處理庫,將得分在80分以上的人妖圖片單獨(dú)存在一個(gè)文件夾。
?
?
下面讓我們來看一看得分在80分以上的人妖都長(zhǎng)啥樣。
?
不知道有多少小伙伴去過泰國旅游,泰國還有很多不錯(cuò)的景點(diǎn),尤其是旅游熱門城市普吉島。最后弱弱的問一下,有看過人妖表演的請(qǐng)?jiān)诹粞詤^(qū)吱一聲。
?
另外:本文的爬蟲內(nèi)容僅供個(gè)人學(xué)習(xí)使用,純屬練習(xí)Python提高技術(shù)。
?
上次的Python版本投票?還在火熱進(jìn)行中,目前有近650參與,歡迎參與!
總結(jié)
以上是生活随笔為你收集整理的分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 猎豹的一次面试
- 下一篇: AI:大力出奇迹?Bigger is b