Nutch2.x 演示抓取第一个网站

下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。

在编译后 bin目录下有两个脚本文件:nutchcrawl ,在命令行下执行各命令即可查看具体使用说明:

在Nutch2.x版本中,爬取流程所涉及的命令做了优化,整合到了crawl 命令中,使用者只需要执行一个命令 crawl 即可完成爬取流程,而不必像老版本中那样,必须依次地执行 inject、generate、fetch、parse等命令。对于初学者来说仍然可以依次执行相关命令 ,仔细观察每执行一步引起的数据变化。下面以抓取 本人博客网站为例详细说明下抓取的过程:

[准备]:创建需要抓取的URL

  • 首先启动hbase (本文是在单机模式下演示的
  • mkdir -p urls
  • cd urls
  • touch seed.txt
  • echo ‘http://micmiu.com’ >seed.txt

下面每一步执行后都可以查看HBase中数据的变化情况。

[第一步]:inject

查看HBase中得数据:

[第二步]:generate

查看HBase中得数据:

[第三步]:fetch

ps:上一步执行的日志中 GenerateorJob batch id 的值 作为下面命令的参数 batchId的值

也可以从hbase中重查询到:

下面执行 fetch 命令:

查看HBase中得数据:

[第四步]:parse

查看HBase中得数据:

[第五步]:updatedb

查看HBase中得数据:

—————–  EOF @Michael Sun —————–

原创文章,转载请注明: 转载自micmiu – 软件开发+生活点滴[ http://www.micmiu.com/ ]

本文链接地址: http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">