国知预警坚持在这个春天做最温暖的知产服务者,传播知识,教授能力,传递爱。
今天我们要讨论的主题是:智能推荐与布尔检索的结合,帮助大家更清晰地了解每一款检索工具的运算机理,从而提高专利检索的效率和准确率。同时,在此我们也一并感谢提供这些检索工具的数据商们,感谢他们一直以来的不懈努力。
现在几乎所有主流数据商都会全力推荐智能检索,大有气吞山河,人类下岗之势。当我们亲身体验后会发现,智能确实一年更比一年好,但是完全靠它还是不行的。那么传统的布尔检索呢,确实已经跟不上时代了,毕竟一亿三千万的数据量和每年新增的数百万级别的专利文献量,靠纯布尔刀耕火种确实不现实。那么,我们认为,后布尔时代的检索就是借助智能检索的优势,同时依靠布尔逻辑的干预检索,这是最强的解决方案。
下面,我们选取了中国大陆地区最容易获得、性价比突出的三款产品(排名不分先后):智慧芽、合享与Patentics三款产品进行分析,主要涉及在智能推荐结果中进行布尔二次检索的结果分析。为了充分说明三款产品在做智能推荐与布尔二次检索时到底发生了什么,我们的测试分三步:
第一步:纯智能推荐的展示
智慧芽智能推荐是全球混排的前1000篇专利。
合享智能推荐的也是全球混排,数量是500篇。
Patentics相比较而言有所不同,需要人工确认的内容较多,其中包括数据库,比如中国文献或美国文献,可以多选、混选,检索结果展示默认400篇,但可以通过ctop命令获得用户指定的篇数。
因此,可以推断,Patentics理论上可以给出从1到库存文献上限的全部排序,也就是说Patentics对目标库进行了一个全面排序,而合享与智慧芽的智能推荐结果是一个指定的集合集,用户无法人为扩大。
第二步,我们在系统推荐结果上进行二次布尔检索
智慧芽的二次布尔过滤方式有两种,一种是通过左侧的筛选栏进行过滤,这部分筛选栏更多的是诸如申请人之类的分类分组信息,因此此类筛选功能更多的是延续软件分析功能,对于检索本身而言,二次限定更多的是其左侧上面的部分,叫做“过滤关键词”。输入诸如:车床,显示72篇,显然完成了在之前1000篇之内的二次筛选。此外,也同样提供了IPC的筛选框。
合享提供了一个叫做“二次检索”的功能,具体界面如下图,其具有更多的选择。同时,合享还允许用户限定关键词的位置,如:摘要还是权利要求等。通过检索可以发现,最终的过滤结果也是在500篇内二次选择了4篇。
Patentics的结果仍然有所不同。首先,Patentics并未采用筛选和二次检索界面的方式,而是允许用户在输入框中自由手动输入任何布尔限定,比如:r/cn105081358 and a/车床,没有任何的限制。从检索结果看,系统反馈了30139篇,比智能检索默认的推荐400篇还要多,这到底是为什么呢?后台发生了什么呢?
我们单独在Patentics中检索了a/车床这个检索式,即我们用来二次限定智能推荐的纯布尔条件,发现果然如我们猜测的一样,结果也是30193篇命中。
经过分析,我们认为智慧芽与合享的系统在智能推荐时就确定了一个基础的命中集合,如1000篇或500篇,随后的二次布尔限定均是在这个集合内部进行的二次限定;而Patentics则是将全库文献与你检索的目标进行排序,当第二次引入布尔限定排序时,则在严格符合布尔限定的基础上进行重新排序,这就是为什么纯布尔检索和加上排序算符R后的结果数量一样的原因所在。
为了进一步证实以上推测,我们还进行了第三步测试:在限定中加入一个明显不与主题相关的词:“冰淇淋”
我们的目标检索文献是车床,显然其主题技术与冰淇淋并不相关,因此如果系统推荐最接近的文献,理论上前几百几千都不应该出现冰淇淋这个词汇。果然,如我们所料,智慧芽与合享的系统在用冰淇淋进行二次限定后均显示结果为“0”,Patentics的结果果如下图所示:
Patentics的逻辑是根据冰淇淋这个词汇的布尔实际命中,再根据目标文献,即环保车床相关进行排序,所以显示的结果也是和“冰淇淋车床”有关。
通过以上的测试可以看出,智慧芽与合享的布尔二次检索是基于智能推荐有限集的二次检索,存在一定的局限性;Patentics则呈现了智能推荐与布尔运算的最佳结合,在运用智能的基础上,保持了布尔的绝对性和不受干扰性,为专业检索者们提供了随心所欲的自由。
我们希望看到本文的各家数据商也共同努力,为用户打造更好的工具。同时,如意金箍棒也需美猴王才能耍的开,好工具最后还是要专家用才能发挥最大效用,北京国知预警在众多检索者中也是专家中的专家,我们是跨越时代的成长者,与科技共进,与时代同行,不断提高自己,努力用专业服务各界客户,正所谓:专利检索哪家强,国知预警专家棒!