您好!欢迎来到静学网! 注册 登入
  • 致力中国及国外独立搜索引擎技术及第三方网站搜索引擎SEO排名研究

关于搜索引擎检索模型中布尔模型的论述,布尔模型的优缺点问题

课程目录 搜索引擎技术开发 次浏览
搜索引擎的开发在于模型的创建,因此,算法来自于数学,这一点不无道理,其实所有的数学公式都可以从模型中找到答案,通过数学模型推测出基本公式,这在许多世界性难题中,数学始终贯穿始终。搜索引擎的出现,离不开基本的数学,因此,这里我们一起探讨搜索引擎最早的基本索引模型,即布尔模型,相信大家会对搜索引擎会有更加深刻的了解。
 
 
首先我们先说一下“布尔”的基本定义,这个是是一个数学概念,当然布尔其实是一个人名,是英国一位著名的数学家之一,这里不对他进行探讨。布尔我们也成为布尔运算,布尔运算式是数字符号化的逻辑推演法,包括联合、相交、相减,这在各个领域得到了广泛应用。
 
布尔运算除了在二维世界中出现,在三维的世界中也得到了广泛运用。
 
比如常见布尔运算表示方法:"∨" 表示"或"、"∧" 表示"与".、"┐"表示"非".、"=" 表示"等价"、1和0表示"真"和"假",在计算机中常用and、or、not、xor表示。
 
布尔模型正式基于布尔代数和集合论的一种相对简单的检索模型,布尔模型检索的原理就是采用AND、OR等逻辑运算符,将用户输入的查询词用布尔运算符进行拆分,然后检索出结果。
 
这种匹配方式是比较简单的,也由于简单,因此存在着多毛病,并不能单独应用于搜索引擎的查询系统,下面模拟用户输入关键词进行布尔运算查询。
 
假设用户输入“搜索引擎系统组成”,当然不能这么输入,应以布尔的方式进行输入:“搜索引擎 系统 组成”,这个是一个AND表达式,也就是有三个关键词组成的查询结果,当然这个结果仅仅是以真假来判断。
 
在检索的结果中,只有含有三个词的文档才会被检索出来,而如果文章中没有包含其中一个词,那么,文章的排序可能会在更后面,如果没有一个词包含在文档中,那么本次查询将会失败。具体事例如下:
 
 
搜索引擎 系统 组成
 
查询结果:
 
 搜索引擎布尔模型
 
 
 
从图上可以看出,其检索的结果是不太理想的,一些无相关的内容或者和用户搜索意图无关的内容居然被检索出来了,这不是我们想要的,然后在布尔运算中确实是如此。
 
 
当然布尔运算的有点也是显而易见,比如这种表达式比较简单,容易得到实现,在关键词的检索过程,把检索计算转变为集合运算,特别是集合间的求交集运算和集合间的差运算等等,同时由于简单,因此在效率上十分明显,要知道布尔模型的计算主要是集合求交运算。
 
但缺点也是十分明显的,由于比较简单,其灵活性比较差,只关心关键词有没有,而忽略了其相关性排序问题,也就是所谓的关键词权重问题,在这种情况下又怎么能够知道用户的真实意图呢?
 
 
因此,要解决布尔模型中的相关性问题,我们在下一节中将会着重讨论向量空间模型。



静学网 , 版权所有丨如未注明 , 均为原创丨转载请注明关于搜索引擎检索模型中布尔模型的论述,布尔模型的优缺点问题
顶一下
(0)
踩一下
(0)
友情链接:
网站优化
本网站所刊载信息,不代表静学网观点。 刊用本网站稿件,务经书面授权或注明来源。 未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。 投稿邮箱:1870447831@qq.com | 举报邮箱:1870447831@qq.com