2。1。2 nutch 爬取过程 5

2。2Hadoop 简介 6

2。3solr 简介 7

2。4  本章小结 8

3 环境搭建 9

3。1 JAVA 环境安装 9

3。2 Ant 的简介与安装 10

3。3 Hadoop  集群搭建 11

3。4 nutch 环境配置 17

3。5 Solr 环境配置 18

3。6  本章小结 20

4 系统测试与分析 21

4。1 问题一 21

4。2 问题二 27

4。3 问题三 27

4。4 本章小结 30

5 分布式爬取 31

5。1 分布式爬取过程 31

5。2 本章小结 34

6 总结 35

致 谢 36

参考文献 37

图 2。1  nutch 结构图                        4 

图 2。2  nutch 分步抓取流程图                    。 6 

图 2。3  Hadoop 集群结构图                     。 7 

图 2。4  solr 实现原理图                       8 

图 3。1  JAVA_HOME 目录                       10 

图 3。2  java 版本显示                      。 10 

第 II 页 本科毕业设计说明书 

图 3。3  ant 版本显示                      。。 11 

图 3。4  修改 hosts 文件                       11 

图 3。5  ssh 密钥生成                      。。 12 

图 3。6  无密码登录 slave 结点                     12 

图 3。7  core-site。xml 文件配置                   。 13 

图 3。8  hdfs-site。xml 文件配置                   。 13 

图 3。9  mapred-site。xml 文件配置                  。。 14 

图 3。10  yarn-site。xml 文件配置                    14 

图 3。11  jps 显示 master 结点工作进程                 。 15 

图 3。12  jps 显示 slave 结点工作进程                 。。 15 

上一篇:i-jetty人脸识别系统设计
下一篇:Word2Vec和cosine相似度程序能力智能辅助训练平台设计

H5动漫社区网站设计

jsp值得买导购网站的设计与实现

IEEE802.15.4网络自适应策略研究

java的B2C型电子商务网站管理系统的设计

MATLAB基于流形学习与神经网络的预测建模

社交网络个性化推荐方法对比研究

C#古钱币拍卖网站分析与设计

提高教育质量,构建大學生...

AES算法GPU协处理下分组加...

基于Joomla平台的计算机学院网站设计与开发

STC89C52单片机NRF24L01的无线病房呼叫系统设计

压疮高危人群的标准化中...

酵母菌发酵生产天然香料...

浅谈高校行政管理人员的...

上海居民的社会参与研究

从政策角度谈黑龙江對俄...

浅论职工思想政治工作茬...