根据iResearch的研究显示,2006年中国每天使用搜索引擎的用户数量有9000多万人,每个用户日均使用7.7次搜索引擎。到了2010年,每天使用搜索引擎的用户数将近两亿人,用户日均使用搜索引擎次数也将达到12.1次。市场需求的多元化进一步导致了搜索引擎的行业化和细分化,垂直搜索引擎应运而生。 为了对抗日益强大的Google,微软于今年2月份和3月份分别收购了法国的手机搜索引擎MotionBridge和移动搜索语音识别公司TellMe Networks。微软的这一系列举动也显示出垂直搜索引擎市场的巨大潜力。 垂直搜索引擎针对某一个行业或组织,提供满足行业专业需求或者业务需求的专业搜索引擎,是搜索引擎的细分和延伸,是对某类网页资源和结构化资源的深度整合,可为用户提供符合专业操作行为的信息服务。
垂直搜索引擎的特色
信息采集: 主动与被动相结合
从采集方式看,互联网搜索以被动方式为主,搜索引擎和被采集的网页没有约定的、标准的格式; 企业搜索以主动方式为主,被采集的办公文档、CRM 和 ERP 中的数据等都和企业搜索引擎有着约定好的采集接口和安全接口; 垂直搜索则采用被动和主动相结合的方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。 从采集深度、动态网页采集的优先级、结构化数据库信息采集来看,互联网搜索采用广度为先的策略,所以对采集深度要求不高,而垂直搜索和企业搜索需要 挖掘出行业内所有相关的网页信息,所以往往采用深度为先的策略。同时由于行业内的一些有商业价值的信息采用动态发布的方式,如企业数据库、供求信息等,所 以垂直搜索对动态网页的采集优先级别较高。在实际应用中,垂直搜索和企业搜索都需要集成和采集关系数据库中的结构化信息,如垂直搜索中政府需要集成法律法 规库、企业搜索中需要采集 ERP和CRM中的信息等。
信息加工: 将非结构化信息抽取为结构化数据
垂直搜索引擎和普通网页搜索引擎的最大区别,是对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据。网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。 垂直搜索的结构化信息提取和加工主要包括两种: 网页元数据的提取,包括标题、作者、发表时间、版权所有等; 内容中结构化实体信息的提取,包括人名、地名、组织机构名、电话号码等。这些数据存储到数据库中,进行进一步的加工处理,如去重、分类、分词、索引,再以 搜索的方式满足用户的需求。 目前,从垂直搜索的应用情况看,大部分垂直搜索的结构化信息提取都是依靠手工或半手工的方式来完成的,面对互联网的海量信息,很难保证信息的实时性 和有效性,对智能化的结构化信息提取技术的需求非常迫切。但因目前国内非结构化信息的智能提取技术取得了重大进展,在一些领域得到了有效应用,因此智能化 成为了垂直搜索引擎的发展趋势。
信息检索: 结构化和非结构化相结合
从信息检索来看,垂直搜索引擎不但能够对网页信息中的结构化信息进行检索,而且能够提供结构化和非结构化信息相结合的检索方式。比如我们找工作时关注的记录(职位信息: 软件工程师; 公司名称: 软件公司; 地点: 北京海淀)。 从检索结果的排序方式看,互联网搜索主要通过 PageRank 算法来实现; 企业搜索大多采用检索内容和检索词的相关度来实现; 而垂直搜索的排序需求更加多样化,如按时间排序、按相关度排序、按某个结构化字段排序(比如购物搜索中的按价格排序)等等。
(iwgh) |