书签分享收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > 总结汇报 > 学习总结 > Nutch 安装使用Word文档格式.docx

Nutch 安装使用Word文档格式.docx

文档编号：22716442
上传时间：2023-02-05
格式：DOCX
页数：13
大小：71.37KB

《Nutch 安装使用Word文档格式.docx》由会员分享，可在线阅读，更多相关《Nutch 安装使用Word文档格式.docx（13页珍藏版）》请在冰豆网上搜索。

Nutch 安装使用Word文档格式.docx

前言¶

∙做完之前的實做，已經對hadoop有一定的體驗，然而各位也許心中有些疑問，就是我學了hadoop到底可以用來..?

，因此在此介紹一個hadoop的應用，搜尋引擎nutch

∙此篇的重點在於

o完整的安裝nutch

o用hadoop的角度來架設nutch

o解決中文亂碼問題

o搜尋引擎不只是找網頁內的資料，也能爬到網頁內的檔案（如pdf,msword）

o也可運行在多台node

環境¶

∙目錄

/opt/nutch

nutch家目錄

/opt/nutch/conf

nutch設定檔

/opt/hadoop

hadoop家目錄

/opt/hadoop/conf

hadoop設定檔

step1安裝好Hadoop¶

單機版¶

可以用實做一的方法來安裝單機

∙執行

∙~$cd/opt

∙/opt$sudowget

∙/opt$sudotarzxvfhadoop-0.18.3.tar.gz

∙/opt$sudomvhadoop-0.18.3/hadoop

∙/opt$sudochown-Rhadooper:

hadooperhadoop

∙/opt$cdhadoop/

∙/opt/hadoop$geditconf/hadoop-env.sh

在任一行內貼上

exportJAVA_HOME=/usr/lib/jvm/java-6-sun

exportHADOOP_HOME=/opt/hadoop

exportHADOOP_CONF_DIR=/opt/hadoop/conf

exportHADOOP_LOG_DIR=/tmp/hadoop/logs

exportHADOOP_PID_DIR=/tmp/hadoop/pid

∙/opt/hadoop$geditconf/hadoop-site.xml

用以下內容取代整個檔案

<

configuration>

<

property>

name>

fs.default.name<

/name>

value>

hdfs:

//localhost:

9000/<

/value>

description>

/description>

/property>

mapred.job.tracker<

localhost:

9001<

hadoop.tmp.dir<

/tmp/hadoop/hadoop-${user.name}<

/configuration>

∙接著執行

∙/opt/hadoop$bin/hadoopnamenode-format

∙/opt/hadoop$bin/start-all.sh

∙啟動之後，可以檢查以下網址，來觀看服務是否正常。

Hadoop管理介面HadoopTaskTracker狀態HadoopDFS狀態

叢集版¶

請參考實作三

step2nutch下載與安裝¶

2.0設定環境¶

∙系統環境變數內加入java_home的路徑

∙$sudosu-

∙#echo"

exportJAVA_HOME=/usr/lib/jvm/java-6-sun"

>

/etc/bash.bashrc

∙#chown-Rhadooper/opt

∙#exit

∙停止原本的hadoop

∙$cd/opt/hadoop

∙$bin/stop-all.sh

2.1下載nutch並解壓縮¶

∙nutch1.0（2009/03/28release）

∙$cd/opt

∙$wget

∙$tar-zxvfnutch-1.0.tar.gz

∙$mvnutch-1.0nutch

2.2部屬hadoop,nutch目錄結構¶

$cp-rf/opt/hadoop/*/opt/nutch

2.3複製函式庫檔¶

$cdnutch

$cp-rf*.jarlib/

step3編輯設定檔¶

∙所有的設定檔都在/opt/nutch/conf下

3.1$NUTCH_HOME/conf/hadoop-env.sh¶

$cd/opt/nutch/conf

$gedithadoop-env.sh

*將找到原本再hadoop-env.sh的設定，將之改成以下設定

exportHADOOP_HOME=/opt/nutch

exportHADOOP_CONF_DIR=/opt/nutch/conf

exportHADOOP_SLAVES=$HADOOP_CONF_DIR/slaves

exportNUTCH_HOME=/opt/nutch

exportNUTCH_CONF_DIR=/opt/nutch/conf

∙載入環境設定值

∙$source./hadoop-env.sh

∙ps：

強烈建議寫入/etc/bash.bashrc中比較萬無一失！

！

3.2$NUTCH_HOME/conf/nutch-site.xml¶

∙重要的設定檔，新增了必要的內容於內，然而想要瞭解更多參數資訊，請見nutch-default.xml

∙$geditnutch-site.xml

∙<

http.agent.name<

nutch<

HTTP'

User-Agent'

requestheader.<

http.agent.description<

MyTest<

Furtherdescription<

http.agent.url<

localhost<

AURLtoadvertiseintheUser-Agentheader.<

http.agent.email<

test@test.org.tw<

Anemailaddress

plugin.folders<

/opt/nutch/plugins<

Directorieswherenutchpluginsarelocated.<

plugin.includes<

Regularexpressionnamingplugindirectorynames<

parse.plugin.file<

parse-plugins.xml<

Thenameofthefilethatdefinestheassociationsbetween

∙content-typesandparsers.<

db.max.outlinks.per.page<

-1<

http.content.limit<

indexer.mergeFactor<

500<

ThefactorthatdeterminesthefrequencyofLucenesegment

∙merges.Thismustnotbelessthan2,highervaluesincreaseindexing

∙speedbutleadtoincreasedRAMusage,andincreasethenumberof

∙openfilehandles（whichmayleadto"

Toomanyopenfiles"

errors）.

∙NOTE:

the"

segments"

herehavenothingtodowithNutchsegments,they

∙arealow-leveldataunitusedbyLucene.

∙

indexer.minMergeDocs<

ThisnumberdeterminestheminimumnumberofLucene

∙DocumentsbufferedinmemorybetweenLucenesegmentmerges.Larger

∙valuesincreaseindexingspeedandincreaseRAMusage.

3.3$NUTCH_HOME/conf/crawl-urlfilter.txt¶

∙重新編輯爬檔規則，此檔重要在於若設定不好，則爬出來的結果幾乎是空的，也就是說最後你的搜尋引擎都找不到資料啦！

∙$gedit./crawl-urlfilter.txt

∙#skipftp:

&

mailto:

urls

∙-^（ftp|mailto）:

∙#skipimageandothersuffixeswecan'

tyetparse

∙-\.（gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP）$

∙#skipURLscontainingcertaincharactersasprobablequeries,etc.

∙-[*!

@]

∙#accecptanythingelse

∙+.*

3.4環境若要設定成叢集才要做¶

∙若是單機版則不用處理此節

∙完全複製到node2

∙$sshnode02"

sudochownhadooper:

hadooper/opt"

∙$scp-r/opt/nutchnode02:

/opt/

step4執行nutch¶

∙先再/opt/nutch內啟動hadoop

∙$cd/opt/nutch

∙$bin/start-all.sh

∙請到管理頁面看是否正常

4.1編輯url清單¶

$cd/opt/nutch

$mkdirurls

$echo"

http:

//www.nchc.org.tw/tw/"

./urls/urls.txt

4.2上傳清單到HDFS¶

$bin/hadoopdfs-puturlsurls

4.3執行nutchcrawl¶

∙用下面的指令就可以命令nutch開始工作了，之後mapreduce會瘋狂工作

∙$bin/nutchcrawlurls-dirsearch-threads2-depth3-topN100000

o執行上個指令會把執行過程秀在stdout上。

若想要以後慢慢看這些訊息，可以用io導向的方式傾倒於日誌檔

o$bin/nutchcrawlurls-dirsearch-threads2-depth3-topN100000>

&

nutch.log

∙在nutch運作的同時，可以在node01節點用瀏覽器，透過job管理頁面,hdfs管理頁面,程序運作頁面來監看程序。

ps:

重要！

如果錯誤訊息出現

Exceptioninthread"

main"

java.lang.RuntimeException:

java.lang.ClassNotFoundException:

org.apache.hadoop.dfs.DistributedFileSystem

則代表之前沒有做此2.2的"

複製函式庫檔"

的步驟，請將hadoop-0.18.3*.jar拷貝到lib中再執行一次即可

step5瀏覽搜尋結果¶

∙nutch在step4的工作是把你寫在urls.txt檔內的網址，用mapreduce的程序來進行資料分析，但是分析完之後，要透過tomcat來觀看結果。

以下就是安裝與設定你的客製化搜尋引擎的步驟。

5.1安裝tomcat¶

∙下載tomcat

∙$cd/opt/

∙解壓縮

∙$tar-xzvfapache-tomcat-6.0.18.tar.gz

∙$mvapache-tomcat-6.0.18tomcat

5.1tomcatserver設定¶

∙修改/opt/tomcat/conf/server.xml以修正中文亂碼問題

Connectorport="

8080"

protocol="

HTTP/1.1"

∙connectionTimeout="

20000"

∙redirectPort="

8443"

URIEncoding="

UTF-8"

∙useBodyEncodingForURI="

true"

/>

5.3下載crawl結果¶

∙先把放在hdfs上，nutch的運算結果下載到local端

∙$bin/hadoopdfs-getsearch/opt/search

5.4設定nutch的搜尋引擎頁面到tomcat¶

∙把nutch的搜尋引擎頁面取代為tomcat的webapps/ROOT

∙$mkdirweb

∙$cdweb

∙$jar-xvf../nutch-1.0.war

∙$mv/opt/tomcat/webapps/ROOT/opt/tomcat/webapps/ROOT-ori

∙$mv/opt/nutch/web/opt/tomcat/webapps/ROOT

5.5設定搜尋引擎內容的來源路徑¶

∙5.4的步驟雖然設定好搜尋引擎的頁面，然而其只能當作是介面而已，因此這個步驟把要搜尋的內容與搜尋介面做個連結

∙$gedit/opt/tomcat/webapps/ROOT/WEB-INF/classes/nutch-site.xml

searcher.dir<

/opt/search<

5.6啟動tomcat¶

$/opt/tomcat/bin/startup.sh

step6享受結果¶

Enjoy!

http:

8080

ps:

若您覺得設定過於麻煩，也可使用NutchEz

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Nutch 安装使用安装使用

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Nutch 安装使用Word文档格式.docx
链接地址：https://www.bdocx.com/doc/22716442.html

Nutch 安装使用Word文档格式.docx

热门标签