OCR文字识别工具在课件制作中的应用

(整期优先)网络出版时间:2012-08-18
/ 2

OCR文字识别工具在课件制作中的应用

王丽1李年修2

王丽1李年修2(1.临沂大学马克思主义学院,山东临沂276005;2.山东华盛农业药械有限责任公司工艺部,山东临沂276017)

摘要:在社会交流信息化、办公技术数字化的时代背景下,教师在备课时常需要借鉴或引用一些不可编辑的文档,采用逐字录入的方式效率较低。为此,可以采用文字识别工具,对常见格式文档进行可编辑处理。经实践验证,OCR文字识别工具可以明显提高工作效率,节省可观的录入时间。

关键词:文字识别系统(OCR);PDF虚拟打印机;分辨率

一、引言

教师在备课中制作电子教案和多媒体课件时,经常涉及到文本的编辑,有时需要借鉴或引用已有的文档内容。若这些文档是一些非可直接编辑的内容,比如纸质文档、图片文档及PDF格式文档等,采用逐字录入的方式,对非专业文字录入人员来说,会耗费大量时间。但如若采用文字识别系统(OCR),并通过一些相关基本操作,将这类文档批量转换为可编辑的文本,将会明显提高工作效率,从而能使教师将更多的时间倾注到对内容的理解和整合上来,更好地实现备课的价值诉求。

文字识别系统(OCR)是一种成熟的技术,有多种很好的软件,如尚书六号表格文字识别系统、清华紫光OCR等,它们可以对图片中的文字进行识别处理,从而将其转换为可编辑的电子文本资料。

文字识别的关键是获得图像清晰、分辨率足够的文本图片。本文主要以教材等印刷文字内容、PDF格式文字资料为例,采用下述方法将其转换为清晰的文本图片,然后使用文字识别系统再转变为可编辑的文本资料。该方法操作简单,经较长时间使用验证,效果比较理想。

二、印刷文字资料的文字识别操作方法

为获得图像清晰、分辨率足够的文本图片,建议使用500万像素以上数码相机拍照。在拍照时,为保证页面对比均匀、图像清晰,应注意应选择光线充足的地方,尽可能不使用闪光灯,待照页面应尽可能保持平整,确保照片文字大小均匀、幅面方正。为防止照片模糊,可每页加照一张备用。

1.用数码相机将待识别的印刷文字资料拍摄成照片,全部照完后导入计算机。

2.打开文字识别(OCR)软件,如尚书六号表格文字识别系统。操作步骤如下:

①打开图像文件:文件→打开图像页。

②选择识别区域:编辑→设定识别区域(整页识别可略去此步)。

③文字识别:识别→文字识别。

④进入文稿校对窗口,校对完成后进行保存,也可直接复制至剪贴板。

⑤粘贴至工作文件(粘贴操作略)。

三尧PDF格式文字资料的识别录入方法

PDF(便携式文档格式)是一种通用文件格式,目前PDF格应用比较广泛,但这类格式的文档大多不可直接进行文字编辑。这里我们使用AdobeAcrobat7.0Professional软件,通过它将PDF格式的文档转换成图片格式,或使用软件的快照工具直接截取局部图片。

1.整页PDF文件的图片转换

①将待转换的PDF文档“打印”成单页(或几页)的PDF文档。安装AdobeAcrobat7.0Professional软件后,便同时安装了“AdobePDF”虚拟打印机,其使用方法与通常打印机使用方法完全相同,只是打印结果是PDF文件(相当于另存为)。选取待打印页数,将所需内容“打印”分隔成单页(或几页)PDF文档。

②在AdobeAcrobat7.0Professional中打开“打印”后的PDF文件。

③点击“另存为”,“保存类型”选择“JPEG”;在“设置”中分辨率更改为“300像素/英寸”(建议);选择“保存”,PDF文件将按每个页面分别转换为JPEG格式图片。

④最后就可用OCR文字识别软件进行操作,步骤如前所述。

2.局部PDF内容的识别录入

整个PDF文件转换图片的时间比较长,有时也没有必要完全转换,可以选择所需要的局部内容。这时可以选用“快照工具”方式,将PDF页面扩放至最大,将屏显部分或选定部分复制至剪贴板。当快照不可用时,可使用键盘上的“PrtScn”,或其他抓图软件,如红蜻蜓抓图精灵等。

操作步骤如下:

①同样为保证文字识别时的足够分辨率,应先对图片转换分辨率进行设置。设置方法:在菜单栏点击“编辑”→“首选项”→“种类栏”→“一般”→选中“使用固定分辨率快照”→调整分辨率,分辨率的调整范围为0~720像素/英寸,同样分辨率越高图像越清晰,常用文档的分辨率可调整至300像素/英寸左右。

②打开画图(所有程序→附件→画图)程序。

③在AdobeAcrobat7.0Professional程序中使用“快照工具”截取需要识别的内容。

④将截取的图片粘贴至“画图”,保画图文件。

⑤文字识别再用OCR文字识别软件进行操作。

⑥粘贴至工作文件(粘贴操作略),重复步骤③~⑥可连续进行局部内容识别录入。

四、结语

本文介绍了目前常见的、不能直接编辑的文本文字识别录入,总的思路是借用几种常用软件或工具,将这些文本转换为具有足够分辨率的图片,然后通过准确、有效的文字识别转化为可编辑的文档内容。由于文字识别是针对图片文字的,因此将待识别的资料转化为具有足够分辨率的图片是关键环节。有些常用阅读文件本身自带文字识别工具(如pdg格式常用的超星阅读器),就可直接进行文字识别,而无须进行转换操作。

经过两年多的实际应用来看,借用上述的文字识别方法,可以明显提高文字录入速度和准确率,从而将更多的时间用于对参考内容的领会和思维加工。