学科分类
/ 25
500 个结果
  • 简介:汉盲翻译系统把中文信息自动翻译为盲文字符,这对盲人的教育、生活等起到非常大的帮助。盲文连写处理是汉盲翻译中重要的一个处理流程,因为盲文不同于中文的特殊性,对分词后的某些字词进行连写是必须的。本文主要研究如何借助形式化的自定义规则描述语言以及连写语料统计库,来设计一个高效,易于扩展和维护的盲文连写实现方案。

  • 标签: 汉盲翻译 连写语料统计库 分词连写
  • 简介:含“情态动词+have+过去分词”的题目多次出现在近几年的各种试题当中,尽管这类题目的形式屡屡有变,但不管怎么变,总有两点不会变:1.测试点是以下七个方面中的某一个方面;2.每道题都有相应的语境暗示,有的语境暗示和往年的语境暗示有着惊人的相似之处。因此,考生在备考时应锁定这七个考点。一、must+have+过去分词【考点解读】这种结构用来表示说话者对已经发生过的动作或存在的状态进行的一种合乎情理的推断或确有把握的推测。这种结构一般只出现在肯定句中,可译作“准是已经……”、“想必……了”、“肯定已……了”。例如:1.(2005江苏,31)—ThewomanbiologiststayedinAfricastudy-ingwildanimalsfor13yearsbeforeshereturned.—Oh,dear!Shealotofdifficulties!A.maygothroughB.mightgothroughC.oughttohavegonethroughD.musthavegonethrough【解析】“女生物学家在非洲研究野生动物...

  • 标签: 情态动词 抓住语境 破解情态
  • 简介:本文通过实验的方法,考察中级水平留学生汉语阅读中的分词偏误现象,由此探讨留学生词界切分和语义提取的策略,归纳分词偏误的基本类型,分析产生偏误的原因,并提出提高学生分词能力的可行的教学建议。

  • 标签: 汉语阅读 分词 偏误
  • 简介:分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.

  • 标签: 信息处理 分词 文档 正向最大匹配 文本结构化
  • 简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。

  • 标签: 汉语分词 词间空格 分词标准 中文信息处理 语言规划
  • 简介:本文主要探讨在汉语史文献内部如何辨识词的问题,这是目前汉语词汇史研究经常关注的问题,但是其中尚且存在许多不足。基于此,本文在对《国语》字词关系穷尽性考察的基础上,运用现代汉语词汇学"分离性"和"同一性"理论,对《国语》中的词进行了穷尽性的辨识,得到了1944个单音词和1258个复音词。通过这项研究,本文力图为先秦文献中的分词问题搭建一个较为完整的框架。

  • 标签: 《国语》 字词关系 分词 先秦文献
  • 简介:在非谓语动词的大家庭中,有这么一组动词的现在分词和过去分词,可以作宾语、表语和状语。在实践中其意义和用法很容易混淆.并且在全国大学英语四级考试中出现的频率也很高。我们先看几道从历年的四级考试试卷中选出的试题:

  • 标签: 分词形容词 非谓语动词 大学英语 四级考试 用法
  • 简介:中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动

  • 标签: 中文分词 词库索引 正向最大匹配法
  • 简介:摘要:现有基于条件随机场模型的中文分词应用到政府公文领域的中文分词准确率不太理想,为了提高条件随机场模型在政府公文领域的中文分词准确率,本文提出了面向政府公文领域的中文分词融合特征,融合特征从训练语料选取、特征模板、位置特征粒度、优化特征等方面进行融合,本文基于收集到政府公文语料和公共语料等仿真数据,在实验上验证融合特征的有效性。

  • 标签: 分词 融合特征 条件随机场模型
  • 简介:中文科技名词自动抽取的关键步骤是分词,文章首先讨论中文语料库中字母词的全/半角现象,然后考察这种现象对自动分词结果当中字母词的一致性和准确性所产生的影响,并给出提高切分结果的一致性和准确性的对策,最后阐述中国传媒大学的分词系统在这方面所做的工作。

  • 标签: 字母词 科技名词 术语抽取 分词 全/半角