学科分类
/ 1
1 个结果
  • 简介:提出一种改进TF-IDF结合余弦定理计算中文语句相似度方法。首先采用IKAnalyzer分词器对中文语句分词处理,提取核心关键词,然后通过计算句子关键词词频和权重形成的TF-IDF向量组,结合余弦定理实现中文句子相似度计算。改进后的TF-IDF计算方法采用《同义词词林》词典实现对关键词及其同义词词频统计,并通过Lucene技术实现关键词权重快速计算。改进后的中文句子相似度算法不仅考虑句子中关键词的物理特征,还对关键词的语义特征进行相似度计算,提高中文句子相似度计算的准确性。

  • 标签: TF-IDF 余弦定理 同义词词林 LUCENE