python大数据论文_大数据环境下基于python的网络爬虫技术
軟
件
開
發
大數據環境下基于
python
的網絡爬蟲技術
作者/謝克武,重慶工商大學派斯學院軟件工程學院
摘要:隨
著互聯網的發展壯大,網絡數據呈爆炸式增長,傳統捜索引擎已經不能滿足人們對所需求數據的獲取的需求,作為搜索引擎的抓
取數據的重要組成部分,網絡爬蟲的作用十分重要,本文首先介紹了在大數據環境下網絡爬蟲的重要性,接著介紹了網絡爬蟲的概念,工
作原理,工作流程,網頁爬行策略,
python
在編寫爬蟲領域的優勢,最后設計了一個通用網絡爬蟲的框架,介紹了框架中模塊的相互協作
完成數據抓取的過程。
關鍵詞
:網絡爬蟲;
python
;
數據采集;大數據
引言
大數據背景下,各行各業都需要數據支持,如何在浩瀚
的數據中獲取自己感興趣的數據,在數據搜索方面,現在的
搜索引擎雖然比剛開始有了很大的進步,但對于一些特殊數
據搜索或復雜搜索,還不能很好的完成,利用搜索引擎的數
據不能滿足需求,網絡安全,產品調研,都需要數據支持,
而網絡上沒有現成的數據,需要自己手動去搜索、分析、提
煉
,格式化為滿足需求的數據,而利用網絡爬蟲能自動完成
數據獲取,匯總的工作,大大提升了工作效率。
1.利
用
python
實現網絡爬蟲相關技術
■
l
.
i
什么是網絡爬蟲
網
絡
爬
蟲
(
又被稱為網頁蜘蛛,網絡機器人),是一種
按照_定的規則,自動地抓取萬維網信息的程序或者腳本。它
們被廣泛用于互聯網搜索引擎或其他類似網站,以獲取或更新
這些網站的內容和檢索方式。它們可以自動采集所有其能夠
訪問到的頁面內容,以供搜索引擎做進_
步
處
理
(
分檢整理
下載的頁面)
,
而使得用戶能更快的檢索到他們需要的信息。
■ 1.2
python
編寫網絡爬蟲的優點
(
1
)
語言簡潔,簡單易學,使用起來得心應手,編寫
_
個
良
好
的
Python
程序就感覺像是在用英語寫文章_
樣
,
盡管這個英語的要求非常嚴格!
Python
的這種偽代碼本質
是
它
最大的優點之_。它使你能夠專注于解決問題而不是去
搞明白語言本身。
(
2
)
使用方便,不需要笨重的
IDE
,
Python
只需要_
個
sublime
text
或者是_
個文本編輯器,就可以進行大部
分中小型應用的開發了。
(
3
)
功能強大的爬蟲框架
ScraPy
,5〇3口丫是_個為了
爬取網站數據,提
雛
構
性
數
據
而
編
寫
的
艦
框
架
。可以應用
在包括翻
S
挖掘,
信息處理或存儲歷史數據等一系列的程序中。
(
4
)
強
大
的
網
絡
支
持
庫
以
及
html
解
析
器
,利用網絡
支
持
庫
requests
,
編寫較少的代碼,就可以下載網頁。利
用網頁解析庫
BeautifulSoup
,
可以方便的解析網頁各個標
簽
,再結合正則表達式,方便的抓取網頁中的內容。
(5)
+
分擅
長
做
文
本
處
理
字
符
串
處
理
:
python
包含
了常用的文本處理函數,支持正則表達式,可以方便的處理
文本內容。
■ 1.3
爬蟲的工作原理
網絡爬蟲是_個自動獲取網頁的程序,它為搜索引擎從
互聯網上下載網頁,
是搜索引擎的重要組成。
從功能上來講,
爬蟲一般分為數據采集,處理,儲存三個部分。
爬蟲的工作原理,爬蟲一般從一個或者多個初始
URL
開
始
,下載網頁內容,然后通過搜索或是內容匹配手段(
比如正
則表達式),獲取網頁中感興趣的內容,同時不斷從當前頁面
提
取
新
的
URL
,根據網頁抓取策略,按一定的順序放入待抓
取
URL
隊列中,整個過程循環執行,一直到滿足系統相應的
停止條件,然后對這些被抓取的數據進行清洗,整理,并建
立索引,存入數據庫或文件中,最后根據查詢需要,從數據
庫或文件中提取相應的數據,
以文本或圖表的方式顯示出來。
■ 1.4
網頁抓取策略
在網絡爬蟲系統中,
待
抓
取
URL
隊列是很重要的一部分,
待
抓
取
URL
隊
列
中
的
URL
以什么樣的順序排列也是_
個很
重要的問題,
因為這涉及到先抓取那個頁面,
后抓取哪個頁面。
而
決
定
這
些
URL
排列順序的方法,叫做抓取策略。
網頁的
抓取策略可以分為深度優先、廣度優先和最佳優先三種:
(1)
廣度優先搜索策略,
其主要思想是,
由根節點開始,
首先遍歷當前層次的搜索,然后才進行下一層的搜索,依次
類推逐層的搜索。這種策略多用在主題爬蟲上,因為越是與
初
始
URL
距離近的網頁,其具有的主題相關性越大。
(
2
)
深度優先搜索策略,這種策略的主要思想是,從
根節點出發找出葉子節點,以此類推。在一個網頁中,選擇
一個超鏈接,被鏈接的網頁將執行深度優先搜索,形成單獨
的一條搜索鏈,當沒有其他超鏈接時,搜索結束。
(
3
)
最佳優先搜索策略,該策略通過計算
URL
描述文
本與目標網頁的相似度,或者與主題的相關性,根據所設定
的閾值選出有效
URL
進行抓取。
■ 1.5
網絡爬蟲模塊
根據網絡爬蟲的工作原理,設計了_個通用的爬蟲框架
結構,其結構圖如圖1
所示。
4
4
1
電
子
制
作
2017年
5
總結
以上是生活随笔為你收集整理的python大数据论文_大数据环境下基于python的网络爬虫技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mongoose更新数据,如果这条记录不
- 下一篇: Hadoop点滴-HDFS命令行接口