搜索引擎介绍
-
搜索引擎:英译为:Search Engine,狭义来讲是基于软件技术开发的互联网数据查询系统,用户通过搜索引擎查询所需信息,广义上讲,搜索引擎是信息检索系统的重要组成部分,完整的信息检索系统包含搜索引擎、信息抽取、信息过滤、信息推荐等。
搜索技术已经经过很长时间迭代完善,目前整体上搜索引擎主要分为:爬取、解析、索引、检索和排序几个阶段。
爬取(Crawl):也叫搜寻器、连接器等,常见的应用实现即爬虫程序。本阶段通过初始指定的种子Web页面出发,以深度或广度的方式扩展搜索结果并进行元数据的保存。
解析(Analyze):也叫转换器、清洗器等,用于将初始阶段爬取到的数据进行格式化处理、过滤、重建等工作。复杂的解析器还会进行如标题抽取、摘要生成、关键词提取、内容标签等工作。
索引(Index):索引器将基于元数据、解析数据构建索引表,索引表可以帮助搜索引擎快速检索相关信息,如我们查询字典都会先通过拼写查看词语位置。常见的索引建立方式如正排索引、倒排索引等。
检索(Search):当用户键入查询内容(Query)后,搜索引擎会通过一系列技术分解用户Query,再通过对索引的查找返回一系列Query关联的查询结果。这个阶段通常也被称为初筛或召回。
排序(Rank):在检索结果的基础上,搜索引擎会基于算法模型对检索结果进行排序,在这个阶段通常会引入用户特征、内容特征等信息,以便在最终展示上能够更加符合用户的搜索期望。完善的搜索引擎通常会包含多个排序阶段如粗排、精排等等。
西南地区IT社群(QQ)
- 云南
- 【昆明网页设计交流吧】243627302
- 【昆明nodejs交流吧】 243626749
- 【VUE】838405306
- 【云南程序员总群】343606807
- 【昆明UI设计】104031254
- 【云南软件外包】15547313
- 贵州
- 【PHP/java源码/站长交流群】55692114
- 四川
- 【成都Java/JavaWeb交流】86669225
- 【vaScript+PHP+MySql】116270060
- 【UI设计/设计交流学习群】135794928
- 重庆
- 【诺基亚 JAVA游戏博物馆】 559479780
- 【PHP,Java,Python,C++接单】 442103442
- 西藏