在我们深入探讨网络搜索的奥秘之前,让我们先来了解一下元搜索引擎。这是一种独特的搜索引擎,它将各种搜索引擎的结果整合在一起,为用户提供统一的搜索结果。我们也可以将其视为一种在线信息检索工具。
元搜索引擎的出现,是因为由于人们试图在网上提升自己网站的排名,导致独立的<a href="https://www.google.com/url?client=internal-element-cse&cx=009682134359037907028:tj6eafkvbe&q=https://www.geeksforgeeks.org/search-engines-work/&sa=U&ved=2ahUKEwiqwXEyOqAhXs7XMBHVckCqkQFjADegQIBxAB&usg=AOvVaw3xlR2STvEHp5fD4IEztAvB">搜索引擎容易受到垃圾信息的干扰。搜索引擎会访问多个网站并为这些站点建立数据库,这一过程也被称为<a href="https://www.google.com/url?client=internal-element-cse&cx=009682134359037907028:tj6eafkvbe&q=https://www.geeksforgeeks.org/indexing-in-databases-set-1/&sa=U&ved=2ahUKEwjk3qe2yOqAhUK7HMBHUUBnoQFjAAegQIABAB&usg=AOvVaw0ER6eW3jo8z1IhoGK9n6wT">索引。任何搜索引擎每秒都要处理大量的查询请求。而元搜索引擎则是在大多数其他搜索引擎上运行这些查询,并进而以对这些站点进行摘要的形式反馈结果。
历史背景
- 它由科罗拉多州立大学的 Daniel Dreilinger 开发。他开发了一款名为 Search Savvy 的工具,可以搜索 20 个网站并返回一个统一的结果。
- MetaCrawler 是由华盛顿大学的学生 Erik Selberg 开发的。它是 Search Savvy 的高级更新版本。虽然功能更先进,但在表现上当时仍不如单一的搜索引擎。
- 1996 年,HotBot 诞生了,它比之前的版本速度更快,并且能够在其自身的搜索引擎结果中进行搜索。后来,它被简化为基于 Lycos 官方网站的搜索界面。
- 2000 年,印度推出了首个名为 HumHaiIndia.com 的元搜索引擎,由 Sumeet Lamba 开发。后来它被更名为 Taaza.com。
为什么我们需要元搜索引擎?
开发元搜索引擎是为了覆盖整个网络,这是大多数单一搜索引擎无法做到的。单一搜索引擎往往会因为网站试图提升页面排名而产生垃圾信息,这是一种非正当的推广手段。此外,单一搜索引擎无法从其他搜索引擎获取结果。这时,元搜索引擎就派上用场了。与单一引擎不同,它还支持多种格式。使用元搜索引擎看起来毫不费力。
元搜索引擎的架构
- 用户界面: 元搜索引擎的用户界面在外观和感觉上与 Google 和 Yahoo 等单一搜索引擎相似。它甚至提供了基于类型和类别进行搜索的选项,以及指定必须使用哪些搜索引擎来返回结果的功能。
- 分发器: 分发器主要负责生成查询。
- 显示模块: 显示模块使用查询将结果写回屏幕。它使用诸如页面排名、解析技术、聚类形成和拼接等方法来提供所需的结果。
- 个性化功能: 换句话说,个性化就是针对特定用户的服务。这涉及将结果相互比较的过程。
元搜索引擎的运作机制
元搜索引擎不会创建自己的数据库,而是创建一个联邦数据库,该数据库实际上是各种其他搜索引擎数据库的集成。
主要涉及两种运作方式:
- 排名架构: 不同的搜索引擎有自己的排名算法。元搜索引擎开发自己的算法,在其中消除重复结果并计算网站的新排名。这是因为它理解在主要网站上排名较高的网站更具相关性,从而能提供更好的结果。
- 融合技术: 使用融合是为了创建更好、更高效的结果。融合分为集合融合和数据融合。集合融合处理包含无关数据的搜索引擎。然后根据其内容和提供相关数据的可能性对数据源进行排名。这会被记录在一个列表中。数据融合则处理具有公共数据集索引的搜索引擎。将数据的初始排名与原始排名进行比较。使用 CombSum 算法等技术应用归一化处理。
元搜索引擎的示例
- Dogpile 是由 InfoSpace LLC 开发的元搜索引擎。它返回来自 Google 和 Yahoo 等单一搜索引擎的结果。它结合了文本、图像、新闻等的搜索结果。
- Sputtr 相对来说是最好的元搜索引擎之一,它结合了 Google、Yahoo、Bing、Ask.com、Twitter、Facebook、YouTube、LinkedIn、IMDb、Slashdot、Dictionary.com、About.com、纽约时报等各种流行搜索引擎的结果。
- 另一个流行的网站是 Trivago,这是一个酒店预订网站,在其广告中提到了这一概念。它从 100 多个其他酒店预订网站返回结果。