Nutch 安装使用Word文档格式.docx
- 文档编号:22716442
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:13
- 大小:71.37KB
Nutch 安装使用Word文档格式.docx
《Nutch 安装使用Word文档格式.docx》由会员分享,可在线阅读,更多相关《Nutch 安装使用Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
前言¶
∙做完之前的實做,已經對hadoop有一定的體驗,然而各位也許心中有些疑問,就是我學了hadoop到底可以用來..?
,因此在此介紹一個hadoop的應用,搜尋引擎nutch
∙此篇的重點在於
o完整的安裝nutch
o用hadoop的角度來架設nutch
o解決中文亂碼問題
o搜尋引擎不只是找網頁內的資料,也能爬到網頁內的檔案(如pdf,msword)
o也可運行在多台node
環境¶
∙目錄
/opt/nutch
nutch家目錄
/opt/nutch/conf
nutch設定檔
/opt/hadoop
hadoop家目錄
/opt/hadoop/conf
hadoop設定檔
step1安裝好Hadoop¶
單機版¶
可以用實做一的方法來安裝單機
∙執行
∙~$cd/opt
∙/opt$sudowget
∙/opt$sudotarzxvfhadoop-0.18.3.tar.gz
∙/opt$sudomvhadoop-0.18.3/hadoop
∙/opt$sudochown-Rhadooper:
hadooperhadoop
∙/opt$cdhadoop/
∙/opt/hadoop$geditconf/hadoop-env.sh
在任一行內貼上
exportJAVA_HOME=/usr/lib/jvm/java-6-sun
exportHADOOP_HOME=/opt/hadoop
exportHADOOP_CONF_DIR=/opt/hadoop/conf
exportHADOOP_LOG_DIR=/tmp/hadoop/logs
exportHADOOP_PID_DIR=/tmp/hadoop/pid
∙/opt/hadoop$geditconf/hadoop-site.xml
用以下內容取代整個檔案
<
configuration>
<
property>
name>
fs.default.name<
/name>
value>
hdfs:
//localhost:
9000/<
/value>
description>
/description>
/property>
mapred.job.tracker<
localhost:
9001<
hadoop.tmp.dir<
/tmp/hadoop/hadoop-${user.name}<
/configuration>
∙接著執行
∙/opt/hadoop$bin/hadoopnamenode-format
∙/opt/hadoop$bin/start-all.sh
∙啟動之後,可以檢查以下網址,來觀看服務是否正常。
Hadoop管理介面HadoopTaskTracker狀態HadoopDFS狀態
叢集版¶
請參考實作三
step2nutch下載與安裝¶
2.0設定環境¶
∙系統環境變數內加入java_home的路徑
∙$sudosu-
∙#echo"
exportJAVA_HOME=/usr/lib/jvm/java-6-sun"
>
>
/etc/bash.bashrc
∙#chown-Rhadooper/opt
∙#exit
∙停止原本的hadoop
∙$cd/opt/hadoop
∙$bin/stop-all.sh
2.1下載nutch並解壓縮¶
∙nutch1.0(2009/03/28release)
∙$cd/opt
∙$wget
∙$tar-zxvfnutch-1.0.tar.gz
∙$mvnutch-1.0nutch
2.2部屬hadoop,nutch目錄結構¶
$cp-rf/opt/hadoop/*/opt/nutch
2.3複製函式庫檔¶
$cdnutch
$cp-rf*.jarlib/
step3編輯設定檔¶
∙所有的設定檔都在/opt/nutch/conf下
3.1$NUTCH_HOME/conf/hadoop-env.sh¶
$cd/opt/nutch/conf
$gedithadoop-env.sh
*將找到原本再hadoop-env.sh的設定,將之改成以下設定
exportHADOOP_HOME=/opt/nutch
exportHADOOP_CONF_DIR=/opt/nutch/conf
exportHADOOP_SLAVES=$HADOOP_CONF_DIR/slaves
exportNUTCH_HOME=/opt/nutch
exportNUTCH_CONF_DIR=/opt/nutch/conf
∙載入環境設定值
∙$source./hadoop-env.sh
∙ps:
強烈建議寫入/etc/bash.bashrc中比較萬無一失!
!
3.2$NUTCH_HOME/conf/nutch-site.xml¶
∙重要的設定檔,新增了必要的內容於內,然而想要瞭解更多參數資訊,請見nutch-default.xml
∙$geditnutch-site.xml
∙<
∙<
http.agent.name<
nutch<
HTTP'
User-Agent'
requestheader.<
http.agent.description<
MyTest<
Furtherdescription<
http.agent.url<
localhost<
AURLtoadvertiseintheUser-Agentheader.<
http.agent.email<
test@test.org.tw<
Anemailaddress
plugin.folders<
/opt/nutch/plugins<
Directorieswherenutchpluginsarelocated.<
plugin.includes<
protocol-(http|httpclient)|urlfilter-regex|parse-(text|html|js|ext|msexcel|mspowerpoint|msword|oo|pdf|rss|swf|zip)|index-(more|basic|anchor)|query-(more|basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)<
Regularexpressionnamingplugindirectorynames<
parse.plugin.file<
parse-plugins.xml<
Thenameofthefilethatdefinestheassociationsbetween
∙content-typesandparsers.<
db.max.outlinks.per.page<
-1<
http.content.limit<
indexer.mergeFactor<
500<
ThefactorthatdeterminesthefrequencyofLucenesegment
∙merges.Thismustnotbelessthan2,highervaluesincreaseindexing
∙speedbutleadtoincreasedRAMusage,andincreasethenumberof
∙openfilehandles(whichmayleadto"
Toomanyopenfiles"
errors).
∙NOTE:
the"
segments"
herehavenothingtodowithNutchsegments,they
∙arealow-leveldataunitusedbyLucene.
∙
indexer.minMergeDocs<
ThisnumberdeterminestheminimumnumberofLucene
∙DocumentsbufferedinmemorybetweenLucenesegmentmerges.Larger
∙valuesincreaseindexingspeedandincreaseRAMusage.
3.3$NUTCH_HOME/conf/crawl-urlfilter.txt¶
∙重新編輯爬檔規則,此檔重要在於若設定不好,則爬出來的結果幾乎是空的,也就是說最後你的搜尋引擎都找不到資料啦!
∙$gedit./crawl-urlfilter.txt
∙#skipftp:
&
mailto:
urls
∙-^(ftp|mailto):
∙#skipimageandothersuffixeswecan'
tyetparse
∙-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
∙#skipURLscontainingcertaincharactersasprobablequeries,etc.
∙-[*!
@]
∙#accecptanythingelse
∙+.*
3.4環境若要設定成叢集才要做¶
∙若是單機版則不用處理此節
∙完全複製到node2
∙$sshnode02"
sudochownhadooper:
hadooper/opt"
∙$scp-r/opt/nutchnode02:
/opt/
step4執行nutch¶
∙先再/opt/nutch內啟動hadoop
∙$cd/opt/nutch
∙$bin/start-all.sh
∙請到管理頁面看是否正常
4.1編輯url清單¶
$cd/opt/nutch
$mkdirurls
$echo"
http:
//www.nchc.org.tw/tw/"
./urls/urls.txt
4.2上傳清單到HDFS¶
$bin/hadoopdfs-puturlsurls
4.3執行nutchcrawl¶
∙用下面的指令就可以命令nutch開始工作了,之後mapreduce會瘋狂工作
∙$bin/nutchcrawlurls-dirsearch-threads2-depth3-topN100000
o執行上個指令會把執行過程秀在stdout上。
若想要以後慢慢看這些訊息,可以用io導向的方式傾倒於日誌檔
o$bin/nutchcrawlurls-dirsearch-threads2-depth3-topN100000>
&
nutch.log
∙在nutch運作的同時,可以在node01節點用瀏覽器,透過job管理頁面,hdfs管理頁面,程序運作頁面來監看程序。
ps:
重要!
如果錯誤訊息出現
Exceptioninthread"
main"
java.lang.RuntimeException:
java.lang.ClassNotFoundException:
org.apache.hadoop.dfs.DistributedFileSystem
則代表之前沒有做此2.2的"
複製函式庫檔"
的步驟,請將hadoop-0.18.3*.jar拷貝到lib中再執行一次即可
step5瀏覽搜尋結果¶
∙nutch在step4的工作是把你寫在urls.txt檔內的網址,用mapreduce的程序來進行資料分析,但是分析完之後,要透過tomcat來觀看結果。
以下就是安裝與設定你的客製化搜尋引擎的步驟。
5.1安裝tomcat¶
∙下載tomcat
∙$cd/opt/
∙解壓縮
∙$tar-xzvfapache-tomcat-6.0.18.tar.gz
∙$mvapache-tomcat-6.0.18tomcat
5.1tomcatserver設定¶
∙修改/opt/tomcat/conf/server.xml以修正中文亂碼問題
Connectorport="
8080"
protocol="
HTTP/1.1"
∙connectionTimeout="
20000"
∙redirectPort="
8443"
URIEncoding="
UTF-8"
∙useBodyEncodingForURI="
true"
/>
5.3下載crawl結果¶
∙先把放在hdfs上,nutch的運算結果下載到local端
∙$bin/hadoopdfs-getsearch/opt/search
5.4設定nutch的搜尋引擎頁面到tomcat¶
∙把nutch的搜尋引擎頁面取代為tomcat的webapps/ROOT
∙$mkdirweb
∙$cdweb
∙$jar-xvf../nutch-1.0.war
∙$mv/opt/tomcat/webapps/ROOT/opt/tomcat/webapps/ROOT-ori
∙$mv/opt/nutch/web/opt/tomcat/webapps/ROOT
5.5設定搜尋引擎內容的來源路徑¶
∙5.4的步驟雖然設定好搜尋引擎的頁面,然而其只能當作是介面而已,因此這個步驟把要搜尋的內容與搜尋介面做個連結
∙$gedit/opt/tomcat/webapps/ROOT/WEB-INF/classes/nutch-site.xml
searcher.dir<
/opt/search<
5.6啟動tomcat¶
$/opt/tomcat/bin/startup.sh
step6享受結果¶
Enjoy!
http:
8080
ps:
若您覺得設定過於麻煩,也可使用NutchEz
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Nutch 安装使用 安装 使用