网络搜索引擎的历史:Google之前发生了什么?

披露: 您的支持有助于保持网站的正常运行!我们会为此页面上推荐的某些服务收取推荐费.


每个现代搜索引擎的功能都以三种工具为中心。这三个工具是什么?

  1. 一种自动连续发现新内容的方法;
  2. 发现内容时建立索引的一种方法;
  3. 搜索索引内容以查找搜索引擎用户正在寻找的点点滴滴的方法.

按照这个定义,搜索引擎是一个非常简单的概念。但是,在实践中,将这三点技术整合在一起已证明说起来容易做起来难,而且早期的搜索引擎仅满足其中一项或两项要求.

如今,领先的搜索引擎是周围一些最知名,最有价值的技术公司。搜索引擎开创的技术已在几乎所有现代网站上实现.

但是,并非总是这样。当今的搜索引擎起步并不好,在过去的几十年中,搜索已经走了很长一段路.

网络之前的搜索引擎

实际上,搜索引擎的故事始于康乃尔大学,甚至还没有建立互联网。在1960年代,康奈尔大学的Gerard Salton及其同事开发了SMART信息检索系统.

SMART代表文本的机械分析和检索系统,也可以代表Salton的神奇的文本自动检索器,具体取决于您要求的人.

它是一个早期的信息检索系统,建立了搜索引擎所基于的许多概念基础,包括术语权重,相关性反馈,术语依存关系等等。.

从SMART,我们转向第一代基于互联网的搜索引擎。互联网实际上只是一个通过TCP / IP通信协议连接的计算机网络系统。它是在蒂姆·伯纳斯·李(Tim Berners-Lee)创建万维网(或仅万维网)之前的十多年中开发的.

在网络诞生之前,使用了几种不同的通信协议通过Internet连接传输数据。最早的搜索引擎被设计用于某些较旧的协议.

那是谁?

WHOIS协议至今仍沿用至今,于1982年首次使用,是最早用于通过互联网查询数据库的工具之一。.

最初,WHOIS搜索功能非常强大,可用于查找有关某个Internet资源块的大量信息,或跟踪与单个人或组织相关的所有资源。.

如今,WHOIS搜索参数受到更多限制,并且WHOIS用于查找单个资源的注册所有者,或者非常普遍地用于查找用于掩盖单个资源所有权的隐私服务.

阿奇

公用FTP服务器是任何人都可以通过Internet连接访问的文档存储和检索服务器,在1980年代末和1990年代初很常见.

但是,除非您知道服务器的位置以及要访问的文档的名称和位置,否则没有简单的方法可以在公共FTP服务器上定位信息。当Archie在1990年发行时,所有这些都改变了.

人们通常认为Archie是第一个真正的搜索引擎。虽然有诸如WHOIS之类的搜索技术是较早开发的,但Archie值得一提,因为它是第一个可用于搜索内容而非用户的工具.

Archie由两个组件组成:

  1. 索引公共FTP服务器内容的Archie服务器.
  2. 一个搜索工具,用于查询在Archie服务器上建立索引的文件的名称.

按照现代标准,Archie是一个非常粗糙的工具。但是,当时,Archie在使用互联网进行信息检索方面迈出了一大步。系统的运作方式如下:

  • 当新的公共FTP服务器上线时,该服务器的所有者将与Archie服务器的管理员联系,并要求将其FTP服务器包含在Archie索引中.
  • 每个月或多或少一次,这些服务器中的每一个都会对存储在每个映射的FTP服务器上的文件的名称进行快照。.
  • Archie服务器联网在一起,每个服务器的内容定期镜像到所有其他Archie服务器.
  • 这样,每个Archie服务器都包含系统映射的每个FTP服务器的内容的相对完整和最新的索引.

可以用几种不同的方式搜索Archie服务器的内容。如果用户可以直接访问服务器,则可以使用直接安装在服务器上的搜索应用程序.

可以建立命令行连接以通过Telnet互联网连接搜索Archie服务器。以后,可以通过向服务器发送格式正确的电子邮件或使用基于Web的搜索界面来进行查询。.

阿奇的朋友

Archie对FTP服务器的看法,Archie的朋友Veronica对Gopher服务器的看法.

Gopher是由明尼苏达大学的Mark McCahill在1990年代初开发的一种互联网通信协议。它比FTP更像是网络。但是也有很多差异.

与网络的HTTP协议相比,Gopher是一个相当严格的协议。爱好者会说它比网络更快,更有条理,而批评家可能会称其为限制性和局限性.

Gopher看起来更像是文件管理器(认为是Windows资源管理器),而不是网页。每个Gopher服务器都由一系列菜单和子菜单组成,这些菜单和子菜单用于组织存储在服务器上的文档.

最初,要在Gopher服务器上查找信息,需要根据与每个菜单相关的标题和描述,手动浏览一系列菜单和子菜单,直到找到所需资源为止.

Veronica很快提供了此手动导航过程的替代方法.

Veronica基本上是将Archie模型应用于Gopher协议。有关Gopher服务器的信息存储在Veronica服务器上,并查询Veronica服务器以查找有关存储在索引Gopher服务器上的文档的信息.

Veronica开发不久后,Jughead出现了。尽管它也是Gopher的工具,但Jughead完全是另一种动物。 Jughead只能用于搜索Gopher十分有限的部分的菜单和子菜单-通常只有一台服务器.

一些高级搜索运算符可以与Jughead一起使用,使其成为在单个Gopher服务器上筛选和定位内容的强大工具。.

名字里有什么?

我敢肯定,您现在想知道这三个搜索引擎的名称:Archi,Veronica和Jughead.

阿奇是第一位,与流行漫画系列无关。该名称是通过将“ archive”一词删除并删除字母v来创建的。Veronica和Jughead这两个名称同时引用了他们与Archie的关系,并向漫画系列致敬。.

为了假装像Veronica和Jughead这样的名字,除了有趣地引用Archie以外,还有其他含义,后来创建了首字母缩写词(backronyms).

据说维罗妮卡(Veronica)是“非常容易以啮齿动物为导向的计算机档案全网索引”的缩写。 Jughead是Jonzy的通用地鼠阶层发掘和展示.

阿奇和他的朋友们的问题

虽然Archie,Veronica和Jughead当时都是有用且尖端的工具,但它们都存在某些局限性.

首先,这三者均无法满足现代搜索引擎的第一个要求:拥有一种自动连续发现新内容的方法。尽管Archie和Veronica确实为各种服务器上的内容建立了索引,但是必须手动将新服务器添加到索引中.

没有自动发现新服务器的机制。另一方面,Jughead仅限于一台服务器.

其次,所有三个搜索引擎只能搜索标题和描述。这三个索引均未索引包含在其索引中的任何文档的内容.

尽管这三个搜索引擎都是构建现代搜索引擎的重要步骤,但所有这三个工具实际上都是手动索引,搜索功能有限.

Gopher发生了什么?

Gopher在1990年代中期迅速发展。但是,在1993年,拥有Gopher知识产权的明尼苏达大学决定开始为每台Gopher安装收取许可费.

继Gopher之后推出并落后的World Wide Web已作为完全免费的平台发布。结果,在1993年之后,用户开始蜂拥而至,以避开与Gopher相关的许可费.

尽管Gopher最终于2000年作为GPL软件发布,并且今天有一些活跃的Gopher服务器,但Gopher很大程度上是Gopher爱好者一直活跃的业余项目.

网络上的第一个搜索引擎

最初创建网络时,没有专门设计用于通过网络通信协议HTTP进行操作的搜索引擎。最初,Tim Berners-Lee维护并手动更新了所有Web服务器的目录.

但是,到了1993年,网络已经发展到这样的程度:保留一个完整的手册目录已不再可行,而且显而易见的是,对良好的搜索引擎的需求显而易见.

如引言中所述,Web搜索引擎需要做三件事才能真正有用:

  • 内容发现:称为网络搜寻器的计算机程序必须用于自动系统地搜寻网络,以查找新内容或更新内容.
  • 内容索引:必须创建并维护发现的内容的索引.
  • 搜索:必须使用搜索工具访问索引,该工具将搜索词与索引内容进行比较并返回有用的结果.

早期的信息检索工具(如WHOIS,Archi,Veronica和Jughead)未能满足所有这三个要求.

它们全部不足之处在于它们是手动创建的目录,具有有限的搜索功能,并且没有自动查找新内容并为其建立索引的机制.

可搜索的手册目录

最早的网络搜索引擎是类似于Archie和Veronica的可搜索目录.

W3Catalog是第一个网络搜索引擎,在概念上与Archie或Veronica非常相似。当它于1993年创建时,有几个高质量的精选网站索引,每个索引都覆盖了有限的网络内容。 W3Catalog所做的是:

  • 使用计算机程序从各种索引中提取信息;
  • 重新格式化内容,以使清单始终如一地呈现,而不管其来源索引如何;
  • 提供查询工具,可用于搜索相关列表.

Aliweb紧随W3Catalog之后紧跟其后,是与Archie,Veronica和W3Catalog相同的另一个索引搜索工具.

但是,尽管W3Catalog仅从一些精选的网站索引中提取信息,但任何网站管理员都可以提交其网站以在Aliweb上列出.

诸如W3Catalog和Aliweb之类的索引,也称为Web目录,在整个1990年代一直很受欢迎。这些网站目录中最成功的是Yahoo!

雅虎!

雅虎!成立于1994年。其对搜索的最大贡献之一是其目录服务:用于搜索结果的大量权威网站.

雅虎!本身开始时是网页目录,而不使用网络搜寻器。雅虎!目录不是第一个,但可能是最大的.

雅虎!是(现在仍然是)最知名的搜索引擎名称之一。在早期,其搜索功能只是其他网络爬虫的结果的前端.

该公司涉足其他信息发布领域,例如Yahoo!。组。但是直到2003年Yahoo!成为自己的自我搜寻引擎。在此之前,Inktomi和Google一起为Yahoo!提供支持。具有讽刺意味的是,谷歌后来成为他们最大的竞争对手.

另外,雅虎!购买了几家搜索引擎公司:Inktomi,AlltheWeb和Overture.

雅虎!引入或流行了许多搜索引擎仍在使用的许多元素。它允许垂直搜索结果,这是特定类别内的搜索.

一个人可以只搜索图像,新闻等等。雅虎!仍在运营,但就像过去一样,另一家搜索公司为搜索结果提供了动力。今天是冰.

Web爬虫自动执行并加快索引编制过程

第一个Web爬网程序创建于1993年6月,名为World Wide Web Wanderer,简称为Wanderer.

它是由马修·格雷(Matthew Gray)创建的,用于生成名为Wandex的索引,该索引实质上是对网络大小的度量。 Wanderer一直在更新Wandex直到1995年末,但是该索引从未用于信息检索目的.

JumpStation

网络搜寻器创建搜索引擎索引的第一个应用程序是JumpStation.

JumpStation由“现代搜索之父”乔纳森·弗莱彻(Jonathan Fletcher)于1993年12月在苏格兰斯特灵大学创建,它使用网络爬虫来创建可搜索的网页标题和标题索引.

在不到一年的时间内,JumpStation的网络爬虫在苏格兰的一台共享服务器上运行时,就索引了275,000个条目.

但是,弗莱彻无法说服大学为该项目投入更多资源或提供资金,因此当弗莱彻于1994年末离开大学时,JumpStation被关闭了.

网络爬虫

在JumpStation之后不久发布的WebCrawler,是第一个基于搜寻器的搜索引擎,可对每个索引网页的整个文本进行搜寻.

在随后的两到三年中,许多基于爬虫的全文本搜索引擎(例如麦哲伦,Northern Light,Infoseek,HotBot,MSN Search和Inktomi)被推出,购买,出售,关闭和合并.

莱科斯

Lycos开始是一个研究项目。它于1994年推出,到1999年成为最受欢迎的网络目的地.

与其他搜索引擎不同,Lycos完全是一家企业公司。它赚了钱,而且做得很快。它之所以成为搜索引擎,是因为其庞大的索引文档目录.

它在启动时每月索引约40万份文档,并在不到两年的时间内将索引总数提高到6000万份,比其他任何搜索引擎都多。 Lycos经历了几次收购和销售.

作为一家公司,它拥有许多其他公司和站点。作为搜索引擎,它今天仍然存在.

激发

Excite始于1995年。它是第一个使用单词关系和统计分析使搜索结果更相关的搜索引擎。.

今天,它因没有做而闻名。在1999年,有机会两次收购Google!首先,要价一百万美元。后来,价格降到仅750,000美元。激励拒绝了这两项交易.

阿尔塔维斯塔

1995年底,数字设备公司推出了AltaVista。虽然它不是第一个搜索引擎,但它在其前身上进行了改进,最终成为当时最流行的搜索引擎之一.

AltaVista是第一个允许自然语言搜索查询的人,这意味着人们可以简单地键入他们要查找的内容,而不使用查询字符串。它也索引了网络,比当时人们甚至知道的还多.

最后,它是最早使用布尔运算符的搜索引擎之一。最终成为Yahoo的一部分!

问吉夫斯

Ask.com的前身是Ask Jeeves,成立于1996年。搜索引擎在问答平台上运行,用户可以使用自然语言提问,搜索引擎可以找到答案。.

Ask的主要搜索贡献之一是他们自己的页面排名算法ExpertRank。 ExpertRank具有特定主题的流行度。如果某个特定主题的网站具有同一主题的其他网站的反向链接,则它的相关性更高.

Ask最终不再专注于搜索。它仍然作为搜索引擎存在,但其核心产品是可搜索的用户回答的问题数据库.

ing

微软的Bing于2009年推出,但实际上并不是那么新。 Bing可以追溯到1998年,当时是MSN Search和Windows Live Search的代名词。.

大约在2004年,Microsoft开始使用自己的搜索结果。这最终推动了从MSN Search到Windows Live Search的转变,最后是Bing。尽管Bing不如Google受欢迎,但Bing设法在搜索引擎市场上占据了相当大的份额.

微软进入搜索引擎业务的同一年(1998年),谷歌成立了。它将很快改变搜索世界.

PageRank:一个革命性的想法

虽然不可能将Google的成功归因于任何一个因素,但也很难高估PageRank对Google的早期成功的重要性。那么,什么是PageRank?

Google使用多种算法来确定搜索结果的显示顺序。 PageRank是Google使用的第一种算法。它仍然是Google整体结果排名方法中的重要组成部分。 PageRank背后有两个基本思想:

  1. 当许多网站链接到某个网页时,表明该网页是有用且可信赖的.
  2. 有用且可信赖的网页中的链接比不可信网页中的链接更有价值和可信赖.

将这两个想法结合起来,以创建网站可信性和有用性的层次结构,称为PageRank.

如您所见,这些想法相互融合。存在更多的传入链接意味着网站更值得信赖,值得信赖的网站的链接比没有很多传入链接的网站的链接更有价值。.

发生的情况是,从一个网站到另一个网站的每个链接都被分配了一定的权重,在SEO圈子中通常称为链接汁。该权重基于链接源自的网站的PageRank以及来自原始网站的出站链接的数量.

Google将所有从原始网站流到相关网页的链接汇总起来,然后使用该信息来确定要分配给网页的PageRank.

事实证明,PageRank是识别有用网站的好方法,用户很快意识到Google搜索结果比其他搜索引擎生成的结果更有用。结果,用户迅速蜂拥至Google,其他搜索引擎也争先恐后追赶.

到2002年,由于其创新的PageRank技术和精简的Google主页设计,使得Google在搜索引擎市场上的地位得到提升,这与几乎所有其他搜索引擎实现的广告和内容密集型Web门户形成鲜明对比.

搜索长大并找到工作

在1990年代,对搜索进行投资是一种投机性的工作。每个人都知道搜索是有价值的,但没人能通过搜索真正赚钱.

但是,这并没有阻止投资者向创新型搜索引擎投入巨额资金,使搜索投资成为互联网泡沫的重要推动因素。.

在1990年代后期,人们开始认真努力通过搜索获利.

搜索引擎意识到他们可以访问正在告诉他们确切想要什么的网络用户。剩下的就是让商家放置广告,该广告将展示给正在寻找其产品和服务的用户.

序曲通过搜索获利

1996年,Open Text率先尝试通过提供付费搜索列表将搜索商业化。但是,看到付费广告展示位置的反应很快遭到了谴责,这个想法未能成功.

两年后,后来被更名为Overture的GoTo在付费搜索位置上获得了第二枪,这一概念被接受了。这在很大程度上是由于以下事实:网络在1996年至1998年之间已经非常成熟,并且已经从最初的学术平台过渡到了商业支持的平台。.

在1998年初成立后不久,Google便从Overture借用了付费搜索投放位置的构想,并迅速从一家陷入困境的初创企业转变为最赚钱的互联网业务之一.

可以预见,Overture对Google选择他们的想法并不太客气,并且Overture在2002年起诉Google侵犯了其专利知识产权.

雅虎!当他们在2003年购买Overture时涉入诉讼,然后着手解决此案。 Google获得了使用Overture专利的永久许可,以换取270万股Google普通股.

如今,搜索结果中的广告已成为搜索引擎使用的主要筹资机制,每年产生数十亿美元的收入.

现代搜索引擎格局

当今的搜索引擎市场仅由四个竞争对手主导,它们的搜索量合计约占全球搜索引擎市场总量的98%.

  • Google占领了全球搜索引擎市场约70%的份额.
  • Bing的市场份额略高于10%,位居第二.
  • 百度以不到10%的市场份额排在第三位.
  • 雅虎!与百度并列第三.

尽管其他搜索引擎(例如AOL和Ask)仍每天使用数百万次,但它们的合并市场份额明显不到全球搜索引擎市场的1%.

的YouTube?!

YouTube是大多数顶级搜索引擎列表中值得注意的一项遗漏。尽管YouTube不是传统意义上的搜索引擎,但越来越多的用户在YouTube上搜索“如何做”视频,产品信息,音乐,新闻以及以前主要通过搜索引擎找到的其他主题.

如果将YouTube的搜索量与搜索引擎列表进行比较,则Google拥有的YouTube实际上可能是网络上的第二大搜索引擎.

只为您的眼睛

搜索引擎市场的一个快速增长的部分是私有搜索部分。此细分由搜索引擎组成,例如DuckDuckGo,Ixquick的Startpage和Qrobe.it。.

它对没有隐私的个人很有吸引力,因为他们没有遵循自己的搜索习惯并将其出售给广告商。尽管这些搜索引擎仍然使用基于广告的搜索模型,但它们不会收集,存储或出售可识别的用户数据.

与Google每天处理的35亿次查询相比,DuckDuckGo当前的平均每天约一千万次查询显得微不足道,但与2011年至2016年相比,其总搜索量增长了100倍.

搜索引擎的复杂性

在过去的几年中,搜索技术的发展趋势已趋于成熟。自2010年以来,搜索创新的例子包括:

  • 自动完成功能和即时生成的搜索结果可提高搜索性能,这项创新称为“即时搜索”.
  • 使用Schema.org标记产生丰富的搜索结果,例如基于在搜索结果页面上直接显示的5星级评分系统的产品评分.
  • 针对垃圾邮件,内容重复,低质量的内容以及过度使用广告的网站的针对性打击越来越大.
  • 搜索引擎能够处理单位换算,货币换算,简单的数学计算,术语定义,语言翻译和类似任务,并在搜索引擎结果页面中显示结果的能力.
  • 将公共领域的百科全书信息直接显示在搜索结果中,此功能称为知识图.

显然,领先的搜索引擎不再满足于简单地告诉您在哪里可以找到要搜索的信息.

他们越来越多地自行提供该信息,并直接将其交付给用户,同时又向付费广告客户交付更多展示次数.

网络搜索的未来

任何人都将猜测搜索的方向。私人搜索显然是对Google等行业领导者的广告和跟踪做法的一种反击,它正在呈爆炸式增长,但仍只占整个市场的一小部分.

另一方面,Google已成长为一家市值达数千亿美元的公司,仅2015年一年就创造了近750亿美元的收入.

同时,与互联网连接的设备,家庭和用户的数量持续增长,搜索代表了用于在网络上查找信息的基本机制.

尽管人们可能会猜测搜索的未来,但我们可以肯定的是:搜索不会很快消失.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map