一种生活服务领域垂直搜索引擎
2020-01-05

一种生活服务领域垂直搜索引擎

本发明涉及一种生活服务领域的垂直搜索引擎,包括以下步骤:使用专业的网络蜘蛛采集信息;信息抽取;索引建立;信息检索。本发明运用网络蜘蛛技术,遍历生活服务领域的门户网站,采集和保存与主题相关的网页,并对这些网页进行链接分析与提取。本发明使用DOM主题块提取和正则表达式提取相结合的方式来进行结构化信息的抽取。通过对数据库中结构化信息建立索引,为用户提供信息的全文检索服务,根据不同字段设定权值,使检索结果合理排序。最后根据生活服务的特点,数据展现不仅基于互联网,还需要通过手机WAP随时随地提供搜索服务。

系统采用基于词典的正向最大匹配分词算法和双字哈希索引词典机制。首先加载词典,建立词典中词条前两个字的哈希表,形成三级索引结构。然后,对于待切分的字串Str读取其第一个字,如果在一级哈希表中找不到这个字,则把它作为单字切分,同时指针后移一位继续重新匹配。相反,如果一级哈希表中包含这个字,则看它后一个字是否在二级哈希表中。如果不存在,首字仍作为单字切分;如果存在,则映射到以这两个字开头的有序字串数组中,遍历数组找到最长的匹配,如果匹配成功,就将该串从Str中切分出来后,再对Str继续处理直到为空为止。

为更好的满足用户的要求,本发明要设计并实现一种针对生活服务领域的垂直搜索引擎,目前该搜索引擎主要是面向餐饮、娱乐和黄页三个领域。

随着互联网的快速发展,网络信息迅速增加,如何快速准确的从海量的网络数据中检索到所需信息是亟待解决的问题,搜索引擎是我们最常使用的从网络上获取信息的一种工具,然而通用搜索引擎多是采用关键字的方式进行查询的,返回结果更倾向于知识成果,他的信息含量大、查询不够准确、深度不够。因此,垂直搜索引擎应运而生。它的检索范围不再是上百甚至上千万的相关网页,而是专门针对某个特定行业的领域知识进行搜索,是搜索引擎的细分和延伸。虽然垂直搜索引擎也提供关键字进行搜索,但是这些关键字通常被放到行业知识的上下文中,返回的结果中消息和条目居多。与通用搜索引擎不同,垂直搜索引擎只按照特定主题采集网页信息,并把非结构化的网页信息转化和提取为结构化数据,以结构化数据为最小搜索单位。然后将这些数据存储到数据库,最后分词、索引再以搜索的方式满足用户的请求。

D、信息检索

本发明共有附图4张,其中:

八、使用专业网络蜘蛛采集信息

其中,tf评分因子指的是某个索引项在一个文档中出现的频率;idf因子反映的是包含该索引项的文档数,数量越多因子的值越小;b00st因子可以用来控制文档中的某个域对于该文档的重要性,以及某个文档在所有文档中的重要性;lengthNorm因子是文档的大小,如果文档越大值就越低。

1、由于本发明使用专业的网络蜘蛛采集某一领域的网页信息,信息采集的结果覆盖范围广、可信度高;

其中,TFi是词条Tj在该网页中出现的次数;DFi表示整个网页集D中包含词条Tj的网页数;Ν表示网页的总数。

本发明共有附图4张,其中:

其中,ContentLength和LinkCount分别表示块内的文字数和链接数,STUCij表示STUi的第j个子块。

其中,tf评分因子指的是某个索引项在一个文档中出现的频率;idf因子反映的是包含该索引项的文档数,数量越多因子的值越小;b00st因子可以用来控制文档中的某个域对于该文档的重要性,以及某个文档在所有文档中的重要性;lengthNorm因子是文档的大小,如果文档越大值就越低。