学科分类
/ 1
1 个结果
  • 简介:摘要:本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律,提出了一个在Linux系统上实现的Focused Crawler Knowledge Graph(聚焦爬虫知识图谱),再根据基于URL规则的聚焦爬虫(URL Rule Based Focused Crawl,简称UBFC)的算法,即从严格限定主题相关网页范围、排除关键字、域名范围限定出发产生的BNF表达式,并用这些正则表达式来指导聚焦爬虫的抓取的理论,对此爬虫进行改进,使其在领域类收获率、召回率上获得较大改进。

  • 标签: 聚焦爬虫 URL正则表达式学习 知识图谱