新一代爬虫利器 —— Playwright
編輯:樂樂 | 來自:SegmentFault
正文
技術編輯:宗恩丨發自 思否編輯部
最近,微軟開源了一個項目叫「playwright-python」,作為一個興起項目,出現后受到了大家熱烈的歡迎,那它到底是什么樣的存在呢?今天為你介紹一下這個傳說中的小白神器。
Playwright 是針對 Python 語言的純自動化工具,它可以通過單個API自動執行 Chromium,Firefox 和 WebKit 瀏覽器,連代碼都不用寫,就能實現自動化功能。
雖然測試工具 selenium 具有完備的文檔,但是其學習成本讓一眾小白們望而卻步,對比之下 playwright-python 簡直是小白們的神器。
Playwright真的適用于Python嗎?答案是肯定的,微軟對于適用于Python的Playwright已準備就緒。可能會發生API重大更改。但大概率是這種情況不會發生,微軟還表示僅在他們知道它可以改善您使用新庫的體驗時,才會可能這樣做。不過微軟也提醒尚不支持特定于供應商的API的某些極端情況,例如收集Chromium跟蹤,覆蓋率報告等。
1、Playwright介紹
Playwright是一個強大的Python庫,僅用一個API即可自動執行Chromium、Firefox、WebKit等主流瀏覽器自動化操作,并同時支持以無頭模式、有頭模式運行。
Playwright提供的自動化技術是綠色的、功能強大、可靠且快速,支持Linux、Mac以及Windows操作系統。
還有朋友這么夸:這個項目作為針對 Python 語言純自動化的工具,解放了代碼,實現了自動化功能,我們來看看怎么用它吧。
2、Playwright使用
安裝
Playwright的安裝非常簡單,兩步解決。
安裝playwright庫 pip?install?playwright 安裝瀏覽器驅動文件(安裝過程稍微有點慢) python?-m?playwright?install 復制代碼上面兩個pip操作分別安裝:
安裝Playwright依賴庫,需要Python3.7+
安裝Chromium、Firefox、WebKit等瀏覽器的驅動文件
錄制
使用Playwright無需寫一行代碼,我們只需手動操作瀏覽器,它會錄制我們的操作,然后自動生成代碼腳本。
下面就是錄制的命令codegen,僅僅一行。
命令行鍵入?--help?可看到所有選項 python?-m?playwright?codegen 復制代碼codegen的用法可以使用--help查看,如果簡單使用就是直接在命令后面加上url鏈接,如果有其他需要可以添加options。
python?-m?playwright?codegen?--help Usage:?index?codegen?[options]?[url]open?page?and?generate?code?for?user?actionsOptions:-o,?--output?<file?name>??saves?the?generated?script?to?a?file--target?<language>???????language?to?use,?one?of?javascript,?python,?python-async,?csharp?(default:?"python")-h,?--help????????????????display?help?for?commandExamples:$?codegen$?codegen?--target=python$?-b?webkit?codegen?https://example.com復制代碼options含義:
-o:將錄制的腳本保存到一個文件
--target:規定生成腳本的語言,有JS和Python兩種,默認為Python
-b:指定瀏覽器驅動
比如,我要在baidu.com搜索,用chromium驅動,將結果保存為my.py的python文件。
python?-m?playwright?codegen?--target?python?-o?'my.py'?-b?chromium?https://www.baidu.com 復制代碼命令行輸入后會自動打開瀏覽器,然后可以看見在瀏覽器上的一舉一動都會被自動翻譯成代碼,如下所示。
結束后自動關閉瀏覽器,保存生成的自動化腳本到py文件。
from?playwright?import?sync_playwrightdef?run(playwright): browser?=?playwright.chromium.launch(headless=False) context?=?browser.newContext()#?Open?new?page page?=?context.newPage()page.goto("https://www.baidu.com/")page.click("input[name="wd"]")page.fill("input[name="wd"]",?"jingdong")page.click("text="京東"")#?Click?//a[normalize-space(.)='京東JD.COM官網?多快好省?只為品質生活'] with?page.expect_navigation():with?page.expect_popup()?as?popup_info:page.click("//a[normalize-space(.)='京東JD.COM官網?多快好省?只為品質生活']")page1?=?popup_info.value #?--------------------- context.close() browser.close() with?sync_playwright()?as?playwright: run(playwright此外,playwright還提供了同步和異步的API接口,文檔如下。另外,搜索公眾號頂級架構師后臺回復“面試”,獲取一份驚喜禮包。
鏈接:https://microsoft.github.io/playwright-python/index.html
同步
下面示例代碼:依次打開三個瀏覽器,前往baidu搜索,截圖后退出。
from?playwright?import?sync_playwright with?sync_playwright()?as?p: for?browser_type?in?[p.chromium,?p.firefox,?p.webkit]:browser?=?browser_type.launch()page?=?browser.newPage()page.goto('https://baidu.com/')page.screenshot(path=f'example-{browser_type.name}.png')browser.close()復制代碼異步
異步操作可結合asyncio同時進行三個瀏覽器操作。
import?asyncio from?playwright?import?async_playwright async?def?main(): async?with?async_playwright()?as?p:for?browser_type?in?[p.chromium,?p.firefox,?p.webkit]:browser?=?await?browser_type.launch()page?=?await?browser.newPage()await?page.goto('http://baidu.com/')await?page.screenshot(path=f'example-{browser_type.name}.png')await?browser.close()asyncio.get_event_loop().run_until_complete(main())復制代碼移動端
更厲害的是,playwright還可支持移動端的瀏覽器模擬。下面是官方文檔提供的一段代碼,模擬在給定地理位置上手機iphone 11 pro上的Safari瀏覽器,首先導航到maps.google.com,然后執行定位并截圖。
from?playwright?import?sync_playwright with?sync_playwright()?as?p: iphone_11?=?p.devices['iPhone?11?Pro'] browser?=?p.webkit.launch(headless=False) context?=?browser.newContext(**iphone_11,locale='en-US',geolocation={?'longitude':?12.492507,?'latitude':?41.889938?},permissions=['geolocation'] ) page?=?context.newPage() page.goto('https://maps.google.com') page.click('text="Your?location"') page.screenshot(path='colosseum-iphone.png') browser.close() 復制代碼另外,還可以配合pytest插件一起使用,感興趣可以自己試一下。
3、總結
playwright相比已有的自動化測試工具有很多優勢,其中有:
支持所有瀏覽器的
在Chromium,Firefox和WebKit上進行測試。Playwright擁有適用于所有現代瀏覽器的完整API覆蓋,包括Google Chrome和Microsoft Edge(帶有Chromium),Apple Safari(帶有WebKit)和Mozilla Firefox。
跨平臺的WebKit測試。使用Playwright,使用適用于Windows,Linux和macOS的WebKit構建,測試您的應用程序在Apple Safari中的行為。在本地和CI上進行測試。
測試手機。使用設備仿真在移動Web瀏覽器中測試您的自適應Web應用程序。
無報文頭與有報文頭。Playwright支持所有瀏覽器和所有平臺的無頭(無瀏覽器UI)和有頭(有瀏覽器UI)模式。有報文頭模式適用于調試,而無報文頭適用于CI / cloud執行。
擁有快速可靠的執行
自動等待APIs。Playwright交互會自動等待直到元素準備就緒。這樣可以提高可靠性并簡化測試編寫流程。
無超時自動化。Playwright會接收瀏覽器信號,例如網絡請求,頁面導航和頁面加載事件,以消除導致睡眠中斷的煩惱。
與瀏覽器上下文保持并行。對于多個并行孤立的瀏覽器上下文可執行環境重復使用一個單獨的瀏覽器實例。
彈性元素選擇器。Playwright可以依靠面向用戶的字符串(例如文本內容和可訪問性標簽)來選擇元素。這些字符串比緊耦合到DOM結構的選擇器更具彈性。
擁有強大的自動化功能
多個域,頁面和框架。Playwright是一種進程外自動化驅動程序,不受頁面內JavaScript執行范圍的限制,并且可以自動執行具有多個頁面的方案。
強大的網絡控制。Playwright引入上下文范圍的網絡攔截以便進行終止或者模擬網絡請求。
現代網絡功能。Playwright通過插入陰的選擇器,地理位置,權限,Web Worker和其他現代Web API支持Web組件。
涵蓋所有場景的能力。支持文件下載和上傳,進程外iframe,原生輸入事件,甚至是深色模式。
但它也有局限性
舊版Edge和IE11支持。Playwright不支持舊版Microsoft Edge或IE11(棄用通知)。支持新的Microsoft Edge(在Chromium上)。
Java語言綁定:Playwright API目前無法在Java或Ruby中使用。這是暫時的限制,因為Playwright旨在支持任何語言的綁定。
在真實的移動設備上進行測試:Playwright使用桌面瀏覽器來模擬移動設備。
雖然有一些局限,但現在playwright 已經更新到了 1.7.0 版本,隨著一代代的更新,系統也會更為完善,作為一款小白神器,為大家省了那么多事情,我們相信它的未來會越來越好。
你還有什么想要補充的嗎?
免責聲明:本文內容來源于網絡,文章版權歸原作者所有,意在傳播相關技術知識&行業趨勢,供大家學習交流,若涉及作品版權問題,請聯系刪除或授權事宜。
END
推薦閱讀牛逼!Python常用數據類型的基本操作(長文系列第①篇) 牛逼!Python的判斷、循環和各種表達式(長文系列第②篇)牛逼!Python函數和文件操作(長文系列第③篇)牛逼!Python錯誤、異常和模塊(長文系列第④篇)總結
以上是生活随笔為你收集整理的新一代爬虫利器 —— Playwright的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用Python分析中国大学分布,终于知道
- 下一篇: 实用脚本!Python 提取 PDF 指