python爬虫 导出/乱码/中英文夹杂问题解决
生活随笔
收集整理的這篇文章主要介紹了
python爬虫 导出/乱码/中英文夹杂问题解决
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
做作業爬數據,對一個網頁進行了簡單爬蟲。各種bug頻出,淚灑鍵盤,遂記之。
DataFrame輸出文件
1、地址數據的逗號分隔符引發的問題
跑完代碼,發現偶爾會出現一些不聽話的,如圖:
首先,第三個對象的address、price、type數據均存在(說明抓取過程沒有問題)
由于csv文件的默認分隔方式為逗號“,” ,第三個對象的地址存在多個逗號,被csv誤認為要分隔開來
(但是為什么大部分對象不會出現這個問題呢?暫時無解)
遂放棄了csv格式,選擇了導出為xlsx,結果就正常了:
2、亂碼問題
由于爬的內容含有繁體字+英文,導出文件的時候寫了如下代碼:
結果導致輸出的繁體字全部是亂碼的
解決方式:增加一個encoding就完事了,簡體繁體用utf-8都是可以滴:
總結
以上是生活随笔為你收集整理的python爬虫 导出/乱码/中英文夹杂问题解决的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (转)VS2010 快捷键
- 下一篇: [转]listview中设置背景图片后