知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export...
這篇文章是對第四篇文章《知識管理系統Data Solution研發日記之四 片段式數據解決方案》的補充,提供一套完整的解決方案。請先閱讀那一篇文章來了解它的原理。
Rule Editor抓取數據
這里,主要的工作是設定目標地址,正則表達式規則。我生活在深圳,對深圳的IT行業比較關注,所以經常看下面的地址,http://www.iteer.net/modules/xdirectory/viewcat.php?cid=217來了解深圳的IT公司現狀。
經常想到把這些數據抓取到自己的電腦中,這也是制作Data Loader的一個原因。請設定一個測試的頁面地址為http://www.iteer.net/modules/xdirectory/singlelink.php?cid=217&lid=2558,然后應用下面的正則表達式來抓取數據。
公司名稱: <div\sclass="*company_title"*>(?<title>\w*)\s?<?
地址:</STRONG>(?<address>.*)\s*
規模:</STRONG>(?<count>.*)人
聯系電話.* </STRONG>(?<tel>.*)\s*<br>?
傳真.* </STRONG>(?<fax>.*)\s*<br>?
郵件 :Email.*</strong>.*mailto:(?<mail>\w*@.*)"
網站.*\s*</STRONG><A\s*href="(?<website>.*)"\s*target
評分:id=xspace-rates-tip>(?<rating>.*)</SPAN>
評論時間: class=comDateCaption>.*(?<time>\d{4}-\d{2}-\d{2})
這一步做好了,保存規則。再打開Segment Run來選擇你需要運行的規則,后臺啟動分析下載程序。
?
Form Designer 設計數據呈現界面
這一節的內容,可以參考窗體設計器一章的主題,效果如下圖所示
之后,打開Segment Explorer,瀏覽運行這個窗體。可以輕松的實現以自定義的方式瀏覽數據。
?
Data Explorer 數據導出
當您對數據的內容感興趣后,您可能會想到把這些數據導出系統,以做進一步的加工處理。Data Explorer則可以達到這個目的,實現在數據的導出功能。導出格式為Excel和Xml。請看下圖
在Setting中配置連接字符串,第一行的右邊則顯示這個連接字符串下面的表,選擇你需要的表數據,顯示數據。
最右下角有兩個按鈕,Export Xls和Export Xml用于實現導出數據。
在這里,還有一個復雜的功能正在開發中。當您在Grid中點擊一筆數據時,它應該可以彈出一個窗體,這個窗體就是前面的Form Designer中設計的窗體,并且把數據傳遞到這個新窗體中,以Detail明細的方式顯示數據,像這樣的效果
在前面顯示的窗體,以自定義窗體的方式顯示出來。這樣做出來,即可以用Data Explorer以網格形式顯示數據,如果對明細感興趣,又可以以單一窗體的形式顯示數據。這兩者的結合,我以為是數據呈現的最佳方式。
通過對這幾個應用程序組的學習,您應該對數據的抓取,呈現,導出有了完整的認識。這就是我設計片斷式數據的處理流程。它達到的效果,可以很輕松的對數據進行再加工,再處理,而不僅僅是限于下載。
?
請到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下載最新版的Data Loader。
轉載于:https://www.cnblogs.com/JamesLi2015/archive/2011/11/18/2254216.html
總結
以上是生活随笔為你收集整理的知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tushare使用分享
- 下一篇: 转载:Apache commons开源工