李林超博客
首页
归档
留言
友链
动态
关于
归档
留言
友链
动态
关于
首页
Java
正文
Lucene作者简介
Leefs
2021-02-09 AM
1651℃
0条
### 1、人物介绍 ![01.Doug Cutting简介.jpg](https://lilinchao.com/usr/uploads/2021/02/3640853304.jpg) **Doug Cutting**是一位美国工程师,迷上了搜索引擎。在1997年,Doug Cutting用一个周末时间,使用Java语言创作了一个文本搜索的开源函数库,目的是为各种中小型应用软件加入全文搜索功能,不久以后,==Lucene==诞生了,2000年Lucene称为Apache开源社区的一个子项目。 ![01.Doug Cutting简介02.jpg](https://lilinchao.com/usr/uploads/2021/02/2949241927.jpg) Lucene从问世之后,引发了==开源==社区的巨大反响,程序员们不仅使用它构建全文检索应用,而且将之集成到各种系统软件中去,除此之外还用来构建Web应用。**维基百科**用Lucene建立了一个站内的强大搜索功能,用以检索站内数以千万的词条。**IBM**的商业软件Web Sphere也采用了Lucene作为全文索引引擎。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。 2004年,Doug Cutting再接再厉,在Lucene的基础上,和Apache开源伙伴Mike Cafarella合作,开发了一个款可以代替当时的主流搜索的开源搜索引擎,命名为Nutch。 ![01.Doug Cutting简介06.gif](https://lilinchao.com/usr/uploads/2021/02/664243751.gif) Nutch是一个建立在Lucene核心之上的网页搜索应用程序,可以下载下来直接使用。它在Lucene的基础上加了网络爬虫和一些网页相关的功能,目的就是一个简单的站内搜索推广到全球网络的搜索上,就像Google一样。 Nutch在业界的影响力比Lucene更大。 大批网站采用了Nutch平台,大大降低了技术门槛,使低成本的普通计算机取代高价的Web服务器成为可能。甚至有一段时间,在硅谷有了一股用Nutch低成本创业的潮流。 随着时间的推移,无论是Google还是Nutch,都面临搜索对象”体积“不断增大的问题。 尤其是Google,作为互联网搜索引擎,需要存储大量的网页,并不断优化自己的搜索算法,提升搜索效率。 在这个过程中,Google确实找到了不少好方法,并且无私地分享了出来。 2003年,Google发表了一篇技术学术论文,公开介绍了自己的谷歌文件系统GFS(Google File System)。这是Google公司为了存储海量搜索数据而设计的专用文件系统。 第二年,也就是2004年,Doug Cutting基于Google的GFS论文,实现了**分布式文件存储系统**,并将它命名为**NDFS(Nutch Distributed File System)**。 ![01.Doug Cutting简介07.jpg](https://lilinchao.com/usr/uploads/2021/02/2496662733.jpg) 还是2004年,Google又发表了一篇技术学术论文,介绍自己的**MapReduce编程模型**。这个编程模型,用于大规模数据集(大于1TB)的并行分析运算。 第二年(2005年),Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。 ![01.Doug Cutting简介08.jpg](https://lilinchao.com/usr/uploads/2021/02/2165457930.jpg) 2006年,当时依然很厉害的Yahoo(雅虎)公司,招安了Doug Cutting。 ![01.Doug Cutting简介09.jpg](https://lilinchao.com/usr/uploads/2021/02/65364604.jpg) 加盟Yahoo之后,Doug Cutting将NDFS和MapReduce进行了升级改造,并重新命名为`Hadoop`(NDFS也改名为HDFS,Hadoop Distributed File System)。 这个,就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting,则被人们称为Hadoop之父。 ![01.Doug Cutting简介10.jpg](https://lilinchao.com/usr/uploads/2021/02/356491980.jpg) Hadoop这个名字,实际上是Doug Cutting他儿子的黄色玩具大象的名字,所以,Hadoop的Logo,就是一只奔跑的黄色大象。 ![01.Doug Cutting简介11.png](https://lilinchao.com/usr/uploads/2021/02/4124357523.png) 我们继续往下说。 还是2006年,Google又发论文了。 这次,它们介绍了自己的BigTable。这是一种分布式数据存储系统,一种用来处理海量数据的非关系型数据库。 Doug Cutting当然没有放过,在自己的hadoop系统里面,引入了BigTable,并命名为HBase。 ![01.Doug Cutting简介12.jpg](https://lilinchao.com/usr/uploads/2021/02/1667565442.jpg) 好吧,反正就是紧跟Google时代步伐,你出什么,我学什么。 所以,Hadoop的核心部分,基本上都有Google的影子。 ![01.Doug Cutting简介13.jpg](https://lilinchao.com/usr/uploads/2021/02/458081492.jpg) 2008年1月,Hadoop成功上位,正式成为Apache基金会的顶级项目。 同年2月,Yahoo宣布建成了一个拥有1万个内核的Hadoop集群,并将自己的搜索引擎产品部署在上面。 7月,Hadoop打破世界记录,成为最快排序1TB数据的系统,用时209秒。 > Lucene、Nutch、Solr、Elasticsearch关系 + Lucene Lucene,是一个开放源代码的全文检索引擎==工具包==,但它不是一个完整的全文检索引擎,而是一个==全文检索引擎的架构==,提供了完整的**查询引擎**和**索引引擎**,**部分文本分析引擎**。官网地址:`https://lucene.apache.org/` + Nutch Nutch是建立在Lucene核心之上的网页搜索应用程序,它在Lucene的基础上加了爬虫和一些网页相关的功能,目的就是从一个简单的站内检索推广到全球网络上的搜索上。官网地址:`http://nutch.apache.org/` + Solr Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。官网地址:`http://lucene.apache.org/solr/` + Elasticsearch Elasticsearch跟Solr一样,也是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。官网地址:`https://www.elastic.co/products/elasticsearch` **总结** ![01.Doug Cutting简介05.jpg](https://lilinchao.com/usr/uploads/2021/02/1256541254.jpg)
标签:
Elasticsearch
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:
https://www.lilinchao.com/archives/988.html
上一篇
Nginx动静分离介绍
下一篇
windows环境下elasticsearch安装教程
取消回复
评论啦~
提交评论
栏目分类
随笔
2
Java
326
大数据
229
工具
31
其它
25
GO
47
标签云
随笔
JavaWeb
LeetCode刷题
ajax
Zookeeper
MyBatisX
Livy
散列
Python
HDFS
Java工具类
Golang
二叉树
设计模式
DataX
Kafka
SpringCloudAlibaba
Hbase
Linux
JavaSE
并发线程
算法
CentOS
Netty
BurpSuite
高并发
容器深入研究
Java阻塞队列
Sentinel
Spark Core
友情链接
申请
范明明
庄严博客
Mx
陶小桃Blog
虫洞