Lucene作者简介

Leefs 2021-02-09 AM 1651℃ 0条

### 1、人物介绍

![01.Doug Cutting简介.jpg](https://lilinchao.com/usr/uploads/2021/02/3640853304.jpg)

**Doug Cutting**是一位美国工程师，迷上了搜索引擎。在1997年，Doug Cutting用一个周末时间，使用Java语言创作了一个文本搜索的开源函数库，目的是为各种中小型应用软件加入全文搜索功能，不久以后，==Lucene==诞生了，2000年Lucene称为Apache开源社区的一个子项目。

![01.Doug Cutting简介02.jpg](https://lilinchao.com/usr/uploads/2021/02/2949241927.jpg)

Lucene从问世之后，引发了==开源==社区的巨大反响，程序员们不仅使用它构建全文检索应用，而且将之集成到各种系统软件中去，除此之外还用来构建Web应用。**维基百科**用Lucene建立了一个站内的强大搜索功能，用以检索站内数以千万的词条。**IBM**的商业软件Web Sphere也采用了Lucene作为全文索引引擎。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。

2004年，Doug Cutting再接再厉，在Lucene的基础上，和Apache开源伙伴Mike Cafarella合作，开发了一个款可以代替当时的主流搜索的开源搜索引擎，命名为Nutch。

![01.Doug Cutting简介06.gif](https://lilinchao.com/usr/uploads/2021/02/664243751.gif)

Nutch是一个建立在Lucene核心之上的网页搜索应用程序，可以下载下来直接使用。它在Lucene的基础上加了网络爬虫和一些网页相关的功能，目的就是一个简单的站内搜索推广到全球网络的搜索上，就像Google一样。

Nutch在业界的影响力比Lucene更大。

大批网站采用了Nutch平台，大大降低了技术门槛，使低成本的普通计算机取代高价的Web服务器成为可能。甚至有一段时间，在硅谷有了一股用Nutch低成本创业的潮流。

随着时间的推移，无论是Google还是Nutch,都面临搜索对象”体积“不断增大的问题。

尤其是Google,作为互联网搜索引擎，需要存储大量的网页，并不断优化自己的搜索算法，提升搜索效率。

在这个过程中，Google确实找到了不少好方法，并且无私地分享了出来。

2003年，Google发表了一篇技术学术论文，公开介绍了自己的谷歌文件系统GFS（Google File System）。这是Google公司为了存储海量搜索数据而设计的专用文件系统。

第二年，也就是2004年，Doug Cutting基于Google的GFS论文，实现了**分布式文件存储系统**，并将它命名为**NDFS（Nutch Distributed File System）**。

![01.Doug Cutting简介07.jpg](https://lilinchao.com/usr/uploads/2021/02/2496662733.jpg)

还是2004年，Google又发表了一篇技术学术论文，介绍自己的**MapReduce编程模型**。这个编程模型，用于大规模数据集（大于1TB）的并行分析运算。

第二年（2005年），Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。

![01.Doug Cutting简介08.jpg](https://lilinchao.com/usr/uploads/2021/02/2165457930.jpg)

2006年，当时依然很厉害的Yahoo(雅虎)公司，招安了Doug Cutting。

![01.Doug Cutting简介09.jpg](https://lilinchao.com/usr/uploads/2021/02/65364604.jpg)

加盟Yahoo之后，Doug Cutting将NDFS和MapReduce进行了升级改造，并重新命名为`Hadoop`(NDFS也改名为HDFS,Hadoop Distributed File System)。

这个，就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting,则被人们称为Hadoop之父。

![01.Doug Cutting简介10.jpg](https://lilinchao.com/usr/uploads/2021/02/356491980.jpg)

Hadoop这个名字，实际上是Doug Cutting他儿子的黄色玩具大象的名字，所以，Hadoop的Logo,就是一只奔跑的黄色大象。

![01.Doug Cutting简介11.png](https://lilinchao.com/usr/uploads/2021/02/4124357523.png)

我们继续往下说。

还是2006年，Google又发论文了。

这次，它们介绍了自己的BigTable。这是一种分布式数据存储系统，一种用来处理海量数据的非关系型数据库。

Doug Cutting当然没有放过，在自己的hadoop系统里面，引入了BigTable,并命名为HBase。

![01.Doug Cutting简介12.jpg](https://lilinchao.com/usr/uploads/2021/02/1667565442.jpg)

好吧，反正就是紧跟Google时代步伐，你出什么，我学什么。

所以，Hadoop的核心部分，基本上都有Google的影子。

![01.Doug Cutting简介13.jpg](https://lilinchao.com/usr/uploads/2021/02/458081492.jpg)

2008年1月，Hadoop成功上位，正式成为Apache基金会的顶级项目。

同年2月，Yahoo宣布建成了一个拥有1万个内核的Hadoop集群，并将自己的搜索引擎产品部署在上面。

7月，Hadoop打破世界记录，成为最快排序1TB数据的系统，用时209秒。

> Lucene、Nutch、Solr、Elasticsearch关系

+ Lucene

Lucene，是一个开放源代码的全文检索引擎==工具包==，但它不是一个完整的全文检索引擎，而是一个==全文检索引擎的架构==，提供了完整的**查询引擎**和**索引引擎**，**部分文本分析引擎**。官网地址：`https://lucene.apache.org/`

+ Nutch

Nutch是建立在Lucene核心之上的网页搜索应用程序，它在Lucene的基础上加了爬虫和一些网页相关的功能，目的就是从一个简单的站内检索推广到全球网络上的搜索上。官网地址：`http://nutch.apache.org/`

+ Solr

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。官网地址：`http://lucene.apache.org/solr/`

+ Elasticsearch

Elasticsearch跟Solr一样，也是一个基于Lucene的搜索服务器，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。官网地址：`https://www.elastic.co/products/elasticsearch`

**总结**

![01.Doug Cutting简介05.jpg](https://lilinchao.com/usr/uploads/2021/02/1256541254.jpg)

标签: Elasticsearch

非特殊说明，本博所有文章均为博主原创。

如若转载，请注明出处：https://www.lilinchao.com/archives/988.html

上一篇 Nginx动静分离介绍

下一篇 windows环境下elasticsearch安装教程

Lucene作者简介

评论啦~

栏目分类

标签云

友情链接申请

Lucene作者简介

 评论啦~

 栏目分类

标签云

友情链接申请

评论啦~

栏目分类

标签云

友情链接申请