nutch的核心流程分析 -

a280606790

浏览: 474051 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

nutch的核心流程分析

博客分类：

nutch

lucene Apache 搜索引擎招聘 Hadoop

Crawl类的时序图。

流程如下:

1. 建立初始URL 集

2. 将URL 集注入crawldb 数据库---inject

3. 根据crawldb 数据库创建抓取列表---generate

4. 执行抓取，获取网页信息---fetch

5. 更新数据库，把获取到的页面信息存入数据库中---updatedb

6. 重复进行3 ～5 的步骤，直到预先设定的抓取深度。--- 这个循环过程被称为“ 产生/ 抓取/ 更新” 循环

7. 根据sengments 的内容更新linkdb 数据库---invertlinks

8. 建立索引---index

一、 org.apache.nutch.crawl.Injector:
    1，注入url.txt
    2，url标准化
    3，拦截url，进行正则校验（regex-urlfilter.txt）
    4，对符URL标准的url进行map对构造<url, CrawlDatum>，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！
    5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_DB_UNFETCHED（状态意思为没有采集过））

二、org.apache.nutch.crawl.Generator:
    1，过滤不及格url （使用url过滤插件）
    2，检测URL是否在有效更新时间里
    3，获取URL metaData，metaData记录了url上次更新时间
    4，对url进行打分
    5，将url载入相应任务组（以host为分组）
    6，计算url hash值
    7，收集url, 直至到达 topN 指定量

三、 org.apache.nutch.crawl.Fetcher:
    1，从segment中读取<url, CrawlDatum>，将它放入相应的队列中，队列以queueId为分类，而queueId是由协议://ip 组成，在放入队列过程中，
       如果不存在队列则创建（比如javaeye的所有地址都属于这个队列：http://221.130.184.141） --> queues.addFetchItem(url, datum);
    2，检查机器人协议是否允许该url被爬行(robots.txt) --> protocol.getRobotRules(fit.url, fit.datum);
    3，检查url是否在有效的更新时间里 --> if (rules.getCrawlDelay() > 0)
    4，针对不同协议采用不同的协议采用不同机器人，可以是http、ftp、file，这地方已经将内容保存下来（Content）。 --> protocol.getProtocolOutput(fit.url, fit.datum);
    5，成功取回Content后，在次对HTTP状态进行识别（如200、404）。--> case ProtocolStatus.SUCCESS:
    6，内容成功保存，进入ProtocolStatus.SUCCESS区域，在这区域里，系统对输出内容进行构造。 --> output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);
    7，在内容构造过程中，调取内容解析器插件（parseUtil），如mp3\html\pdf\word\zip\jsp\swf……。 --> this.parseUtil.parse(content); --> parsers[i].getParse(content);
    8，我们现在研究html解析，所以只简略说明HtmlParser，HtmlParser中，会解析出text,title, outlinks, metadata。
       text：过滤所有HTML元素；title：网页标题；outlinks：url下的所有链接；metadata：这东西分别做那么几件事情首先检测url头部的meta name="robots" 看看是否允许蜘蛛爬行，
       其次通过对meta http-equiv refresh等属性进行识别记录，看页面是否需要转向。

四、 org.apache.nutch.parse.ParseSegment：
    1，这个类逻辑就相对简单很多了哦，它对我们也是很有价值的，它只做一件事情，就是对爬行下来的Content（原始HTML）进行解析，具体解析通过插件来实现。
        比如我们要做的数据分析、数据统计都可以在这进行实现。
    2，执行完成后，输出三个Map对<url,ParseText>解析内容、<url,ParseData>包含所有链接的分析后的结果、<url,CrawlDatum>outlinks

五、org.apache.nutch.crawl.CrawlDb：
    主要根据crawld_fatch输出更新crawldb。
    1，map对crawld_fatch、crawldb地址进行标准化（nomalizer）和拦截操作（filte）；
    2，reduce在对两crawld_fatch和crawldb进行合并更新。

六、org.apache.nutch.crawl.LinkDb：
   这个类的作用是管理新转化进来的链接映射，并列出每个url的外部链接(incoming links)。
    1，先是对每一个url取出它的outLinks，作map操作把这个url作为每个outLinks的incoming link，
    2，在reduce里把根据每个key来把一个url的所有incoming link都加到inlinks里。
    3，这样就把每个url的外部链接统计出来了，注意，系统对只对外部链接进行统计，什么叫外部链接呢，就是只对不同host进行统计，
       记住iteye.com和biaowen.iteye.com是两个不同的host哦。 --> boolean ignoreInternalLinks = true;
    4，然后一步是对这些新加进来的链接进行合并。

七、 org.apache.nutch.crawl.Indexer：
   这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。
   这里的输入就比较多了，有segments下的fetch_dir,parseData和parseText，还有crawldb下的 current_dir和linkdb下的current_dir。
    1，在这个类里，map将所有输入都装载到一个容器里边，
    2，再到reduce进行分类处理，
    3，实现拦截 --> this.filters.filter(doc, parse, key, fetchDatum, inlinks);
    4，打分 --> this.scfilters.indexerScore(key, doc, dbDatum,fetchDatum, parse, inlinks, boost);
    5，当然要把这些数据体组合成一个 lucene的document让它索引了。
    6，在reduce里组装好后收集时是<url,doc>，最后在输出的OutputFormat类里进行真正的索引。
        doc里有如下几个field
            content（正文）
            site    （所属主地址）
            title    （标题）
            host    （host）
           segement    (属于哪个segement)
            digest    (MD5码，去重时候用到)
            tstamp    （时间戳）
           url    （当前URL地址）
            载了一个例子：
               doc =
                   {content=[biaowen - JavaEye技术网站首页新闻论坛博客招聘更多 ▼ 问答 ………………（内容省略）………… biaowen 永NF/ICP备05023328号],
                   site=[biaowen.iteye.com],
                   title=[biaowen - JavaEye技术网站],
                   host=[biaowen.iteye.com],
                   segment=[20090725083125],
                   digest=[063ba8430fa84e614ce71276e176f4ce],
                   tstamp=[20090725003318265],
                   url=[http://biaowen.iteye.com/]}

八、 org.apache.nutch.crawl.DeleteDuplicates：
   这个类的作用就是这它的名字所写的意思－－去重。
   前面索引后（当然不是一次时的情况）会有重复，所以要去重。为什么呢，在一次索引时是不重复的，可是多次抓取后就会有重复了。
   就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准，一种是以内容的md5值为标准。

九、org.apache.nutch.indexer.IndexMerger：
    这个类就相对简单了，目的将多个indexes合并为一个index，直接调用lucene方法实现！

附带些参考资料：目录结构，参考自《Lucene+Nutch搜索引擎开发》
    一、crawldb    下载的url，以及下载日期，用来进行页面更新
    二、segements    存放抓取页面和分析结果
                        1、crawl_generate：待下载url
                        2、crawl_fetch：每个下载url的状态
                        3、content：每个下载页面的内容
                        4、parse_text：包含每个解析过的url文本内容
                        5、parse_data：每个url解析出的外部链接和元数据
                        6、crawl_parse：用来更新crawl的外部链接库
    三、linkdb    存放url的互联关系
    四、indexes：存放每次下载的独立索引目录
    五、index：符合lucene格式的索引目录，是indexes里所有index合并后的完整索引

来源：http://dev.firnow.com/course/3_program/java/javajs/20100719/459450.html

查看图片附件

分享到：

生产者-消费者-BlockingQueue | Java 代理模式与动态代理类

2010-11-26 00:09
浏览 2226
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch的核心流程分析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch的核心流程分析

评论

发表评论

相关推荐

网页去重

nutch 抓取动态网页设置

nutch 中的MapReduce详细分析

提高Nutch局域网抓取的速度

nutch 过滤掉不正确的URL实现方法:

nutch中Nutch-defaul.xml相关配置

Nutch中文分词总结

nutch累积式抓取

提高Nutch局域网抓取的速度

nutch如何才能抓取到动态的url

Nutch-0.9源代码：Crawl类整体分析

网络爬虫调研报告

配置完成nutch容易出现的错误

Nutch1.0的配置与运行

Nutch1.0的配置与运行

Nutch的资料

nutch的基本工作流程理解

最近访客更多访客>>