简介:网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。
简介:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detectnear—DuplicateWebPages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
简介:里耶简的出土,为人们了解秦代的文书格式、县丞(守丞)的文书职能和文书管理等方面的工作,并进一步研究秦代的文书和档案工作提供了可能.
简介:今年是红军长征胜利60周年纪念日。在1934年10月,中国工农红军离开了原来的根据地,实行了战略大转移,开始了震惊世界的二万五千里长征。在长征途中,红军强渡乌江天险,召开了著名的遵义会议,确立了毛主席在全党的领导地位,从此以后,红军在毛主席的领导下,巧渡金沙江,强渡大渡河,飞夺泸定桥,翻雪山过草地……直到1936年,10月红军三大主力在甘孜会师,取得了长征的伟大胜利。红军战士在长征中遇到了千难万险,其中最艰难的要算翻越大雪山了。中央红军渡过大渡河后继续北上,来到了海拨四千多米的大雪山
简介:常熟古里镇与张家港永联村,作为“华夏书香”的典型,各有特色。论文从多个侧面介绍古里镇的藏书文化、阅读活动、书香氛围,以及永联图书馆的个性发展、阅读服务等内容,揭示“华夏书香”第一乡和第一村的成功之道,以期为乡村文化建设提供借鉴。
基于网页正文逻辑段落和长句提取的网页去重算法
一个基于特征向量的近似网页去重算法
从里耶简看秦代文书和文书工作
艰难的历程给我无穷的启迪──读《二万五千里长征的故事》
“华夏书香”第一乡与第一村——江苏常熟市古里镇与张家港市永联村书香行动纪实