当前位置: 首页 > 软件教程 > 图片型文件转化成文本文件的技巧

图片型文件转化成文本文件的技巧

2014年10月13日 19:43:06 来源:网络 访问量:630

我们在写计划、总结、安排意见或者是文章的时候,有时需要从网上获取一些文字资料,或者从文件上摘录一些文字等,获取文的途径大致有这样几种:一是键盘输入;二是从网页上复制;三是下载文本文件;四是语音输入;五是文件转换。相对来说用文件转换的方式来获得文本比较麻烦,但有时却也是最快速的方法。

  一、文本PDF文件转化成文文件

  结合学习和自己的一些应用实践,这里说一说用文件转换的方式来获得文本的方法。例如我们要从上级发的电子文件中摘录一部分要求来写学校的安排意见,那么就需要复制出电子文件中的文字。而现在大多数电子文件都是PDF格式的文件。PDF格式的文件是Adobe公司定义的电子印刷品文件格式,它是一种事实上的标准,在Internet网上的很多电子印刷品都是以这种格式出现。

  如果原PDF格式文件是由文本文件转化而来的,例如由WORD文档转化的。那么这种PDF文件可以直接再转化成文本文件。网上有很多这样的工具,如“PDF转WORD工具”可以把PDF文件还原成WORD文档以便再编辑。在工作中,我习惯使用一款叫“福昕PDF阅读器(Foxit reader)”的小工具,它是一个小巧的PDF文档阅读器,完全免费。它既是阅读器,也是转化器,可以通过“文件”菜单的“另存为”命令把原PDF文件存成TXT文本文件。

        

  但是转化PDF文件有一个前提,就是原来的PDF文件没有被设置限制,例如禁止用户修改如果设置有限置,那么首先要去除限制,再来转化。去除限制的工具百度一下也有很多,例如下面的小工具:PDF解密工具

        

  把有限制的PDF文件拖到工具界面上工具会清除文档限制,并另存为一个文件。在没有限制的新的PDF文件里,可以选择复制,也可以另存为TXT文本。

  二、图片PDF文件转化成文本文件

  另一类PDF文件是通过扫描仪把原文件扫描后做成的PDF文件,这种文件里面不是文字,是图片。用另存的方法或转化WORD的方法还不能提取出里面的文字来。

  在实际工作中,我常用一种叫“CAJViewer(CAJ阅读器)”的阅读器来转化是中国期刊网的专用全文格式阅读器,它支持CAJ、NH、KDH和PDF格式文件。它不仅能转化文本形PDF格式文件(同样需要先解除PDF文件限制),也可识别图片形PDF格式文件。如下:

      

  可以用工具栏上的选择工具,框要转化成文字的部分,再点工具菜单(或右键菜单)中的“识别成文字”命令项。最终被选中的部分被识别成了文本,可以进行再编辑。

  所以,如果是扫描的图片文件,或是抓屏的网页内容保存的图片,都可以先把图片转成PDF格式,再用CAJ阅读器来识别成文字。至于中间图片转成PDF这一过程,可以使用一些工具软件,比如“PDF虚拟打印机”、“免费图片转换为PDF软件(FreePic2Pdf)”等来实现。

  三、图片转化成文本

  文字的识别是用了OCR光学识别技术,通过检测纸上打印的字符暗、亮的模式确定其形状,然后用字符识方法将形状翻译成计算机文字

  也有一些OCR光学识别软件,是直接识别图片型文本的的。比如“汉王OCR”、“尚书7号ocr”、“清华紫光ocr”等可以把JPG、BMP等图片上的文字识别出来。以汉王OCR为例,打开一张图片型文本,框选要识别的内容,若不框选表示全文识别。再点工具栏上的“眼镜”图标进行识别。

        

  识别以后,点菜单上的“输出”-“到指定格式文件”,就可以保存成TXT文本格式文件了。然后再打开文字编辑工具方便地进行编辑操作。

        

  “汉王OCR”也可以识别PDF格式文件,如下图标识1的位置,点击“将PDF识别为TXT文件”就行了。

       

  从上面的例子可以看出,PDF、JPG格式之间是可以相互转化的,至于用哪一个工具软件来识别文字,就看个人的习惯了吧。

编辑:林丽
郑重声明:本站全部内容均由本单位发布,本单位拥有全部运营和管理权,任何非本单位用户禁止注册。本站为教育公益服务站点,禁止将本站内容用于一切商业用途;如有任何内容侵权问题请务必联系本站站长,我们基于国家相关法律规定严格履行【通知—删除】义务。本单位一级域名因备案流程等原因,当前临时借用网校二级域名访问,使用此二级域名与本单位官网权属关系及运营管理权无关。绵阳市富乐实验小学 特此声明。
绵阳市富乐实验小学 版权所有
联系地址:绵阳市游仙区沈家坝东街1号 邮编:621000电话:(0816)2291285 Email:33343997@qq.com
北京网笑科技有限公司 仅提供技术支持 违法和不良信息举报中心