OCR文字识别工具在课件制作中的应用-中国期刊网

首页 > 《新校园：上旬刊》 > 2012年8期 > OCR文字识别工具在课件制作中的应用

（整期优先）网络出版时间：2012-08-18

作者: 王丽1李年修2

文化科学 >教育学

打印

同系列资源

/ 2

OCR文字识别工具在课件制作中的应用

王丽1李年修2

王丽1李年修2（1.临沂大学马克思主义学院，山东临沂276005；2.山东华盛农业药械有限责任公司工艺部，山东临沂276017）

摘要：在社会交流信息化、办公技术数字化的时代背景下，教师在备课时常需要借鉴或引用一些不可编辑的文档，采用逐字录入的方式效率较低。为此，可以采用文字识别工具，对常见格式文档进行可编辑处理。经实践验证，OCR文字识别工具可以明显提高工作效率，节省可观的录入时间。

关键词：文字识别系统(OCR)；PDF虚拟打印机；分辨率

一、引言

教师在备课中制作电子教案和多媒体课件时，经常涉及到文本的编辑，有时需要借鉴或引用已有的文档内容。若这些文档是一些非可直接编辑的内容，比如纸质文档、图片文档及PDF格式文档等，采用逐字录入的方式，对非专业文字录入人员来说，会耗费大量时间。但如若采用文字识别系统(OCR)，并通过一些相关基本操作，将这类文档批量转换为可编辑的文本，将会明显提高工作效率，从而能使教师将更多的时间倾注到对内容的理解和整合上来，更好地实现备课的价值诉求。

文字识别系统(OCR)是一种成熟的技术，有多种很好的软件，如尚书六号表格文字识别系统、清华紫光OCR等，它们可以对图片中的文字进行识别处理，从而将其转换为可编辑的电子文本资料。

文字识别的关键是获得图像清晰、分辨率足够的文本图片。本文主要以教材等印刷文字内容、PDF格式文字资料为例，采用下述方法将其转换为清晰的文本图片，然后使用文字识别系统再转变为可编辑的文本资料。该方法操作简单，经较长时间使用验证，效果比较理想。

二、印刷文字资料的文字识别操作方法

为获得图像清晰、分辨率足够的文本图片，建议使用500万像素以上数码相机拍照。在拍照时，为保证页面对比均匀、图像清晰，应注意应选择光线充足的地方，尽可能不使用闪光灯，待照页面应尽可能保持平整，确保照片文字大小均匀、幅面方正。为防止照片模糊，可每页加照一张备用。

1.用数码相机将待识别的印刷文字资料拍摄成照片，全部照完后导入计算机。

2.打开文字识别(OCR)软件，如尚书六号表格文字识别系统。操作步骤如下：

①打开图像文件：文件→打开图像页。

②选择识别区域：编辑→设定识别区域（整页识别可略去此步）。

③文字识别：识别→文字识别。

④进入文稿校对窗口，校对完成后进行保存，也可直接复制至剪贴板。

⑤粘贴至工作文件（粘贴操作略）。

三尧PDF格式文字资料的识别录入方法

PDF(便携式文档格式)是一种通用文件格式，目前PDF格应用比较广泛，但这类格式的文档大多不可直接进行文字编辑。这里我们使用AdobeAcrobat7.0Professional软件，通过它将PDF格式的文档转换成图片格式，或使用软件的快照工具直接截取局部图片。

1.整页PDF文件的图片转换

①将待转换的PDF文档“打印”成单页（或几页）的PDF文档。安装AdobeAcrobat7.0Professional软件后，便同时安装了“AdobePDF”虚拟打印机，其使用方法与通常打印机使用方法完全相同，只是打印结果是PDF文件（相当于另存为）。选取待打印页数，将所需内容“打印”分隔成单页（或几页）PDF文档。

②在AdobeAcrobat7.0Professional中打开“打印”后的PDF文件。

③点击“另存为”，“保存类型”选择“JPEG”；在“设置”中分辨率更改为“300像素／英寸”（建议）；选择“保存”，PDF文件将按每个页面分别转换为JPEG格式图片。

④最后就可用OCR文字识别软件进行操作，步骤如前所述。

2.局部PDF内容的识别录入

整个PDF文件转换图片的时间比较长，有时也没有必要完全转换，可以选择所需要的局部内容。这时可以选用“快照工具”方式，将PDF页面扩放至最大，将屏显部分或选定部分复制至剪贴板。当快照不可用时，可使用键盘上的“PrtScn”，或其他抓图软件，如红蜻蜓抓图精灵等。

操作步骤如下：

①同样为保证文字识别时的足够分辨率，应先对图片转换分辨率进行设置。设置方法：在菜单栏点击“编辑”→“首选项”→“种类栏”→“一般”→选中“使用固定分辨率快照”→调整分辨率，分辨率的调整范围为0～720像素/英寸，同样分辨率越高图像越清晰，常用文档的分辨率可调整至300像素/英寸左右。

②打开画图(所有程序→附件→画图)程序。

③在AdobeAcrobat7.0Professional程序中使用“快照工具”截取需要识别的内容。

④将截取的图片粘贴至“画图”，保画图文件。

⑤文字识别再用OCR文字识别软件进行操作。

⑥粘贴至工作文件（粘贴操作略），重复步骤③～⑥可连续进行局部内容识别录入。

四、结语

本文介绍了目前常见的、不能直接编辑的文本文字识别录入，总的思路是借用几种常用软件或工具，将这些文本转换为具有足够分辨率的图片，然后通过准确、有效的文字识别转化为可编辑的文档内容。由于文字识别是针对图片文字的，因此将待识别的资料转化为具有足够分辨率的图片是关键环节。有些常用阅读文件本身自带文字识别工具(如pdg格式常用的超星阅读器)，就可直接进行文字识别，而无须进行转换操作。

经过两年多的实际应用来看，借用上述的文字识别方法，可以明显提高文字录入速度和准确率，从而将更多的时间用于对参考内容的领会和思维加工。

同系列内容