web数据管理 期末
網頁預處理: !!!
一種是將文檔看作字符流 正則表達式
一種是將文檔看作樹結構 基于DOM
統計語言模型是序列中單詞的概率分布 (中文分詞)
Content-based Image Retrieval CBIR 基于內容的圖像檢索
基于內容檢索的一種(CBR)
核心:
圖片特征提取: 低級特征-顏色、紋理、形狀
特征匹配: 相似度計算
web爬蟲判重
哈希表判重,在一臺下載服務器上建立和維護一張哈希表并不是難事,
分布式,多臺服務器一起下載網頁,就會出現問題:
問題1、哈希表太大,一臺下載服務器存不下。
問題2、每臺下載服務器在開始下載前和完成下載后都要維護這表哈希表,這個存儲哈希表的通信就成為爬蟲系統的瓶頸。
web數據抽取 !!!
定義: 給定頁面集合 W={wi},它通過頁面模板 T 生成,包含數據 D={di},即 W={wi|wi = T(di) },Web 數 據抽取問題則可以定義為通過一定的技術手段,從 W 中逆向推導出 T,還原數據 D.
Web 數據抽取的目的是獲得頁面中的數據,需要借助一個或多個頁面逆向推導出頁面模板 T
HMM !!!
隱馬爾可夫模型(Hidden Markov Model HMM)
馬爾可夫過程指數學中具有馬爾可夫性質的離散事件隨機過程
用來描述一個含有隱含未知參數的馬爾可夫過程
布爾檢索模型
布爾模型: 一種簡單的檢索模型,可以用來處理布爾表達形式的查詢(and,or,not)
理論基礎:集合論
基本規則:每個索引詞在一篇文檔中只有兩種狀態:出現或不出現,對應權值為 0 或 1.
實現方式:非線性的掃描方式 (一種方法是事先給文檔建立索引)
HOG !!!
HOG 特征
方向梯度直方圖,一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子.
主要思想: 一副圖像中,局部目標的表象和形狀能夠被梯度或邊緣的方向密度分布很好的描述. 本質是梯度的統計信息,梯度主要存在于邊緣的地方
圖像特征包括低級特征和語義特征
形狀特征位于語義和低層之間,屬于對象級
Tamura紋理特征
對比度(contrast)、粗糙度(coarseness)、方向性(directionality)對于圖像檢索尤為重要。
LBP 特征
局部二值模式;結合了紋理圖像結構和像素統計關系的紋理特征描述方法;一種有效的紋理描述算子(提取局部紋理信息、記錄像素點與周圍點的差異)
優點: 對光照具有不變性; 具有旋轉不變性; 灰度不變性
SIFT 特征
尺度不變特征轉換
SIFT 是一種檢測局部特征的算法,每個 feature 要用 128 維的向量來描述.(計算量相對很大)
優點: 不只具有尺度不變性,即使改變旋轉角度、圖像亮度或拍攝視角,仍能有好的檢測效果.
缺點: 實時性不夠高; 有時特征點較少; 對邊緣光滑的目標無法準確提取特征點
鏈碼
用一串數字表示圖像中目標的邊界
優點:可以有效描述輪廓形狀,大大減少邊界所需要的數據量
缺點:對起始點要求很高; 不具有旋轉不變性; 對噪聲和邊界線段缺陷很敏感
簡述反爬蟲與爬蟲的博弈 !!!
1.Robot 協議:網站通過 robots 協議告訴搜索引擎哪些頁面可以抓取,哪些不能
網站: 分析用戶的 User-agent,根據大全過濾未知的或者指定的
爬蟲: 篡改自己的 User-agent,偽裝瀏覽器
2.IP 屏蔽
網站: 同一 IP 頻繁訪問,封
爬蟲對策: 連接代理服務器、多 IP 并行、增大爬取時間間隔
3.訪問限制
網站: 交互登陸 (提交用戶名、口令、cookie)
JavaScript 渲染、AJAX
動態網頁(數據在后臺數據庫,通過 GET(POST)參數后臺 PHP 程序生成的網頁)
爬蟲應對:模擬瀏覽器工作 (HTP 分析工具分析 HTTP 傳遞的口令)
4.驗證碼、圖片滑動驗證碼
Python+Selenium+PIL+Tesseract 識別驗證碼
csv 文件
csv 是以逗號間隔的文本文件, 看起來像是表格的壓縮版
優點:
1.被 Excel 和很多的應用程序支持
2.用來做數據存儲容量小
3.很多數據集采用格式
JSON 文件
JavaScript 對象表示法(JavaScript Object Notation)
JSON 是輕量級的文本數據交換格式,JSON 是存儲和交換文本信息的語法;類似 XML,比 XML 更快、更小、更易解析.
在 JSON 中有兩種結構:對象和數組. 最常用的格式是對象的鍵值對.
XML 文件
可擴展標記語言
用來存儲、攜帶、交換數據; 半結構化集成數據
bs4
Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。
它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,
簡單,不需要多少代碼就可以寫出一個完整的應用程序。
scrapy
快速、高層次的屏幕抓取和web抓取框架,
用于抓取web站點并從頁面中提取結構化的數據。
Scrapy吸引人的地方在于它是一個框架
所謂“框架”,便是整個或部分系統的可重用設計。
在python中也可以說,一個框架就是一個可復用的“巨大模塊”。
任何人都可以根據需求方便的修改。
借助Scrapy框架這個爬蟲利器,只需根據自己的需要,編寫幾個專屬的模塊就可以輕松地實現一個爬蟲項目
向量空間模型: !!!
每篇文檔表示成一個基于 tf-idf 權重的實值向量∈ R| V | (V 是詞項集合,|V| 表示詞項個數)
|V|維實向量空間:每一維對應一個詞項
文檔是空間中的點或者向量.
特點:
維度非常高 (互聯網搜索引擎,可能千萬維)
向量空間非常稀疏 (每個向量大部分是 0)
經典信息檢索模型:
布爾模型
向量空間模型
經典概率模型
圖像檢索算法
圖像檢索領域: 將局部特征表示成全劇特征的編碼
編碼本的訓練: BOF,VLAD(局部聚合向量),FV
BOF(Bag of Features)
圖像可以視為一種文檔對象
圖像中不同的局部區域或其特征可看作構成圖像的詞匯
使用聚類算法將局部特征進行聚類,每個聚類中心看作是詞典中的一個視覺詞匯,相當于文本檢索中的詞.
Fisher Vector
混合高斯模型、聚類
FV 考慮了特征點到每個聚類中心到距離.
VLAD 特征
FV 的簡化版本
VLAD 保存了每個特征點到離他最近到聚類中心到距離.統計的是落入最近單詞里與該單詞 的累計殘差
顏色特征:
顏色直方圖
顏色相關圖
顏色自相關圖
顏色矩
總結
以上是生活随笔為你收集整理的web数据管理 期末的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: grid网格布局基础(一)
- 下一篇: 不是复制硅谷,而是与硅谷建立人脉