文库网
首页 > 小知识

搜索引擎的分类(2)

2023-04-08 来源:文库网
2.3.3信息索引技术
信息索引就是创建文档信息的特征记录,以便用户能够快速地检索到所需信息。建立信息索引主要涉及以下几个问题。
(1) 信息语词切分和语词词法分析。语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要充分利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。
(2) 进行词性标注及相关的自然语言处理。词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫链随机过程的n元语法统计分析方法在词性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。
(3)建立检索项索引。使用倒排文件的方式建立检索项索引,一般包括“检索项”“检索项所在的文件位置信息”及“检索项权重”
(4)检索结果处理技术。搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常放在最前面。搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。
●概率方法。根据关键词在文中出现的频率来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相关程度就越高。
●位置方法。根据关键词在文中出现的位置来判定文件的相关性。关键词在文件中出现的越早,文件的相关程度就越高。
●摘要方法。搜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以便用户进行选择。
●分类或聚类方法。 搜索引擎采用分类或聚类技术,自动把查询结果归入不同的类别中。

猜你喜欢