聊聊DougCutting

为什么要讲这个人,后面要聊大数据

本故事内容来自公众号

1998年9月4号,google公司在美国硅谷成立.正如大家所知,它是一家搜索引擎起家的公司

无独有偶,一位名叫DougCutting的美国工程师,也迷上了搜索引擎.他做了一个用于文本搜索的函数库(姑且理解为软件的功能组件),命名为Lucene.

Lucene使用Java写的,目标是为各种中小型应用软件加入全文检索功能.因为好用而且开源(代码公开),非常受程序员们稀罕)

在这个过程中,google确实找到了不少好的办法,并且无私地分享了出来.

开源是一种精神!

2003年,google发表了一篇技术学术论文,公开介绍了自己的谷歌文件系统GFS(google File System).这是google公司为了存储海量搜素数据而设计的专用文件系统

第二年,2004年,Doug Cutting基于google的GFS论文,实现了分布式文件存储系统,并将它命名为NDFS(Nutch Distributed File System)

还是2004年,google又发表了一篇技术学术论文,介绍自己的MapReduce编程模型.这个编程模型,用于大规模数据集(大于1TB)的并行分析运算.

2005年,Doug Cutting 又基于MapReduce,在Nutch搜索引擎实现了该功能.

![1596610274356](D:\IdeaProjects\StudyRecord\Elasticsearch\img\1596610274356.png

2006年,当时依然很厉害的Yahoo(雅虎)公司,招安了Doug Cutting

截图

我们继续往下说.

还是2006年,google有发表论文了

这次,他们介绍自己的BigTable,这是一种分布式的数据存储系统,一种用来处理海量数据的非关系型数据库.

Doug Cutting 当然没有放过,在自己的hadoop系统里面,引入了BigTable,并命名为HBase.

好吧,反正就是紧跟Google时代步伐,你出什么,我学什么

所有,Hadoop的核心部分,基本上都有Google的影子.

2008年1月,Hadoop成功上位,成为Apache基金会的顶级项目.

同年2月,Yahoo宣布建成了一个拥有1W个内核的Hadoop集群,并将自己的搜索引擎产品部署在上面.

7月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,用时209秒.

生存法则: 不断学习(虚心学习! ) 优胜劣汰!

三体里面的片段

会到主题

Lucene是一套信息检索工具包!jar包! 不包含搜索引擎系统!Solr

包含的是索引结构!读写索引的工具!基本的常用的网站搜素排序功能,搜素规则功能...工具类!

Lucene好elasticsearch的关系:

Elasticsearch是基于Lucene工具包做了一些封装和增强(我们上手是十分简单!)

HashMap比这个难多了

讲课风格:学习更多的是培养大家的学习兴趣!

教学风格:开源,免费,授人以鱼

聊DougCutting