NUTCH公开课:从搜索引擎到网络爬虫
时间: 2013-09-12来源:开源中国
前景提要
HDC调试需求开发(15万预算),能者速来!>>>
课程背景: Nutch 诞生于 2002 年 8 月,是 Apache 旗下的一个用 Java 实现的开源搜索引擎项目,自 Nutch1.2 版本之后, Nutch 已经从搜索引擎演化为网络爬虫,接着 Nutch 进一步演化为两大分支版本: 1.X 和 2.X ,最大的区别在于 2.X 对底层的数据存储进行了抽象以支持各种底层存储技术。在 Nutch 的进化过程中,产生了 Hadoop 、 Tika 和 Gora 三个 Java 开源项目。如今这三个项目都发展迅速,极其火爆,尤其是 Hadoop ,其已成为大规模数据处理的事实上的标准。 Tika 使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本, Gora 支持把大数据持久化到多种存储实现。
课程大纲:
1 、 Nutch 是什么?
Nutch 是 Apache 旗下的 Java 开源项目,最初是一个搜索引擎,现在是一个网络爬虫。
2 、 Nutch 的设计初衷 ?
商业搜索引擎不开源,搜索结果不纯粹是根据网页本身的价值进行排序,而是有众多商业利益考虑。 Nutch 提供了开源的解决方案,帮助人们很容易地建立一个搜索引擎,为用户提供优质的搜索结果,并能从一台机器扩展到成百上千台。
3 、为什么要学习 Nutch ?
搜索技术是信息时代的必备技术之一,没有搜索功能的软件是无法想象的,而搜索引擎是搜索技术的集大成者。通过 Nutch 的学习,可以对百度、谷歌这样的搜索巨头的内部机制有所了解,并能根据自己的需要打造适合自己的搜索引擎,当然,也可以把搜索技术应用到几乎所有的软件开发中
4 、 Nutch 的设计目标 ?
每个月抓取几十亿网页
为这些网页维护一个索引
对索引文件执行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作
5 、 Nutch 的发展历程?
11 年发展历程, 3 大分支版本
强调重用,诞生了 Java 开源项目 Hadoop 、 Tika 、 Gora
不重新发明轮子,使用了大量第三方开源项目
6 、 Nutch 的整体架构?
插件机制、数据抓取、数据解析、链接分析、建立索引、分布式搜索等。
对于一个搜索引擎来说,最终可能由成百上千台服务器组成,然而,初创公司最初可能只有几台机器作为尝试,随着公司的发展逐步增加机器,因此,线性可扩展的分布式存储与分布式计算是至关重要的。
Nutch 参考了 Google 的两篇论文: MapReduce 计算模型以及 GFS 存储模型,并做了实现,后来把这两大部分剥离出来形成独立的开源项目 Hadoop 。由此可知, Hadoop 诞生于 Nutch ,核心由分布式计算和分布式存储组成,是 MapReduce 和 GFS 的 JAVA 开源实现。
Nutch 使用 HDFS 作为存储实现一直持续了很多年,然而使用 HDFS 有许多限制,后来考虑对存储层进行抽象,剥离并形成了新的开源项目 Gora ,以支持多种存储技术,包括 RDBMS 和 NoSQL 。
对于搜索引擎来说,需要抓取各种各样的文件,解析这些不同格式的文件是一个难题,为了简化设计,也为了重用,于是诞生了 Tika ,一个专为内容分析而诞生的工具箱。
7 、 Nutch 3 大分支版本?
Nutch1.2 是一个完整的搜索引擎
Nutch1.7 是一个基于 HDFS 的网络爬虫
Nutch2.2.1 是一个基于 Gora 的网络爬虫
1.X 系列可用于生产环境、 2.X 系列还不成熟
8 、 Nutch 的应用领域?
站内搜索引擎、全网搜索引擎、垂直搜索引擎、数据采集
9 、 nutch 的使用?
一些具体的实践方法及演示

讲师介绍:


杨尚川 ,系统架构设计师,系统分析师, 2013 年度优秀开源项目 APDPlat 发起人,资深 Nutch 搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统 (MIS) 开发、移动智能终端 (Win CE 、 Android 、 Java ME) 开发、搜索引擎 (nutch 、 lucene 、 solr 、 elasticsearch) 开发、大数据分析处理 (Hadoop 、 Hbase 、 Pig 、 Hive) 等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供 Nutch 、 Lucene 、 Hadoop 、 Solr 、 ElasticSearch 、 HBase 、 Pig 、 Hive 、 Gora 等框架的解决方案、技术支持、技术咨询以及培训等服务。

现场或线上参课 报名: http://www.osforce.cn/opencourse/31.html

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行