Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2
前言:作者(守望者MS)在實際搭建并開發Nutch的過程中參閱很多中文資料,但內容并不詳盡且有錯誤,于是在此記錄個人實戰過程,糾正一些文章錯誤,以詳細的過程展現一次簡單的二次開發流程,為初學者降低門檻。但不能保證完全沒有錯誤,如有發現希望大家指正。
目錄:
Cygwin,Nutch安裝配置,檢驗是否正確(對網友守望者博客的修改---在此感謝守望者)1
Cygwin,Nutch安裝配置,檢驗是否正確(對網友守望者博客的修改---在此感謝守望者)2
Cygwin,Nutch安裝配置,檢驗是否正確(對網友守望者博客的修改---在此感謝守望者)3
Cygwin,Nutch安裝配置,檢驗是否正確(對網友守望者博客的修改---在此感謝守望者)4
一、開發環境介紹(以我個人為例):
個人開發端:windows Server 2003 + Cygwin + Eclipse3.2
二、具體步驟:
<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)
下載完成后解壓到指定的文件夾。
在開始測試Nutch是否搭建成功之前,請先確保本機安裝了JDK,并且設置了正確的JAVA_HOME環境變量,注意:環境變量的設置中一定要將JDK的安裝根目錄設置為JAVA_HOME,然后再設置CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib,千萬不要設置為絕對目錄,否則在執行Nutch命令時會出現錯誤
,點擊查看詳情
<2>.開始配置Nutch:
第一:修改nutch目錄下的conf子目錄下的兩個文件:
在nutch-site.xml的configuration下增加一個http.agent.name節點(如不修改則不能抓取)
???? <configuration>
??????????? <property>
???????????? <name>http.agent.name</name>
???????????? <value>HD nutch agent</value>
???????????? </property>
????????????? <property>
????????????? <name>http.agent.version</name>
????????????? <value>1.2</value>
?????????????? </property>
????? </configuration>
在crawl-urlfilter.txt中將如下語句改成需要的形式:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/
注:“+”號前不要有空格
第二:執行抓取操作
(1).在Nutch根目錄下新建一個url.txt文件,其每一行輸入你想要爬去的網站域名。
例如:
http://www.qq.com/
http://www.sina.com.cn/
注:以行為單位,每行輸入一個域名,且域名格式遵從上述例子,最后要加"/"
接著修改:apache-nutch-1.2-bin.zip\nutch-1.2\conf\nutch-default.xml中內容:
<property>
? <name>http.agent.name</name>
? <value>sina</value>
? <description>HTTP 'User-Agent' request header. MUST NOT be empty -
? please set this to a single word uniquely related to your organization.
? NOTE: You should also check other related properties:
?? ?http.robots.agents
?? ?http.agent.description
?? ?http.agent.url
?? ?http.agent.email
?? ?http.agent.version
? and set their values appropriately.
? </description>
</property>
紅色標記的地方不能為空,可以隨便寫一個
解決方法:在cygwin中輸入:export LANG="zh_CN.GBK"
,而后回車
其實就是設置下linux的環境變量
一定要寫:否則出現如下錯誤:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)
(2).打開cygwin,執行命令行:
注:作者的Nutch放置在G:/nutch
命令行:cd g:????? (其中g表示你的apache-nutch-1.2-bin的存放位置)
apache-nutch-1.2-bin重命名為:nutch
命令行: cd nutch??????????
?
命令行: bin/nutch crawl url.txt –dir localweb –depth 3 –threads 4
注:該命令行中的參數請自行學習參考,這里不多做解釋。
此時,Nutch就開始執行抓取操作了,配置成功。
經過以上的步驟,后端的操作基本完畢,此時可以在cygwin中到nutch根目錄下
執行下面命令進行簡單的查詢測試:
bin/nutch org.apache.nutch.searcher.NutchBean 關鍵字
<3>Tomcat的配置
(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;
(2).將nutch目錄的nutch-1.2.war復制到tomcat\webapps下,并將其改名為ROOT.war;
???? 如果Tomcat正在運行,那么ROOT.war會自動生成ROOT文件夾;如果沒有運行,那么啟動Tomcat之后,會自動生成ROOT文件夾。
(3.)打開ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式:
??? <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>
? <!-- Put site-specific property overrides in this file. -->
? <nutch-conf>
<property>
<name>searcher.dir</name>
<value>g:/nutch/localweb</value>
</property>
</nutch-conf>
? 其中的"<value>g:/nutch/localweb</value>"部分,應根據自己的設置進行相應修改,是nutch抓取結果存放目錄。
啟動Tomcat,打開瀏覽器在地址欄中輸入:http://localhost:8080/,即可看見nutch的搜索頁面。
至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中導入并調試Nutch,
請點擊查看文章
總結
以上是生活随笔為你收集整理的Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 年利率24%怎么算
- 下一篇: 蚂蚁借呗有什么风险吗