首先我们先说一下“布尔”的基本定义,这个是是一个数学概念,当然布尔其实是一个人名,是英国一位著名的数学家之一,这里不对他进行探讨。布尔我们也成为布尔运算,布尔运算式是数字符号化的逻辑推演法,包括联合、相交、相减,这在各个领域得到了广泛应用。
布尔运算除了在二维世界中出现,在三维的世界中也得到了广泛运用。
比如常见布尔运算表示方法:"∨" 表示"或"、"∧" 表示"与".、"┐"表示"非".、"=" 表示"等价"、1和0表示"真"和"假",在计算机中常用and、or、not、xor表示。
而布尔模型正式基于布尔代数和集合论的一种相对简单的检索模型,布尔模型检索的原理就是采用AND、OR等逻辑运算符,将用户输入的查询词用布尔运算符进行拆分,然后检索出结果。
这种匹配方式是比较简单的,也由于简单,因此存在着多毛病,并不能单独应用于搜索引擎的查询系统,下面模拟用户输入关键词进行布尔运算查询。
假设用户输入“搜索引擎系统组成”,当然不能这么输入,应以布尔的方式进行输入:“搜索引擎 系统 组成”,这个是一个AND表达式,也就是有三个关键词组成的查询结果,当然这个结果仅仅是以真假来判断。
在检索的结果中,只有含有三个词的文档才会被检索出来,而如果文章中没有包含其中一个词,那么,文章的排序可能会在更后面,如果没有一个词包含在文档中,那么本次查询将会失败。具体事例如下:
搜索引擎 系统 组成
查询结果:

从图上可以看出,其检索的结果是不太理想的,一些无相关的内容或者和用户搜索意图无关的内容居然被检索出来了,这不是我们想要的,然后在布尔运算中确实是如此。
当然布尔运算的有点也是显而易见,比如这种表达式比较简单,容易得到实现,在关键词的检索过程,把检索计算转变为集合运算,特别是集合间的求交集运算和集合间的差运算等等,同时由于简单,因此在效率上十分明显,要知道布尔模型的计算主要是集合求交运算。
但缺点也是十分明显的,由于比较简单,其灵活性比较差,只关心关键词有没有,而忽略了其相关性排序问题,也就是所谓的关键词权重问题,在这种情况下又怎么能够知道用户的真实意图呢?
因此,要解决布尔模型中的相关性问题,我们在下一节中将会着重讨论向量空间模型。
顶一下
(0)
踩一下
(0)