五千年(敝帚自珍)

主题:从PDF文件中提取文字的问题。 -- johny

共:💬31 🌺5
分页树展主题 · 全看首页 上页
/ 3
下页 末页
  • 家园 从PDF文件中提取文字的问题。

    我有本超星的书打成了PDF格式,大家都知道,这种PDF文件里的每一页本质上都是图像。

    有没有办法用什么软件把上面的文字“拽”下来贴到帖子里面?

    否则我就得一个字一个字敲了,前景恐怖,

    • 家园 也请各位帮个忙

      想找一个linux下的pdf reader,开放源码的?哪里能够下载?谢谢了

    • 家园 没有那么复杂吧?

      没有那么复杂啊!可以载一个叫Scansoft PDF Converter 的软件,专门把PDF文件转化成word文件。而且是和Microsoft Office开发小组联合开发的,和office兼容性不错。

    • 家园 我有简单一法,可以帮兄达到目的,分三步走。

      如果你装有Office system 2003的话(应该不会没有吧),可以这样做:(我不知道其它版本的行不行,我用的是2003)

      一、把你的文档打印到Microsoft Office Document Image Writer上,这是个Office虚拟出来的打印机。打印出来应当是个.mdi的文档。

      点看全图

      二、用Microsoft Document Imaging打开之。在tools-options中选OCR Tab,把OCR Language改成你需要的。然后在tools中选Recognize text using OCR。软件这时候就开始自动扫描图片中的文字,并把图片最后转换成文字。

      点看全图点看全图

      三、最后一步,tools->Send text to Word。大功告成!

      附原来图形PDF和生成的Word纯文本

      [SIZE=3]原文档[/SIZE]

      点看全图

      [SIZE=3]转换后的纯文本[/SIZE]

      点看全图

      图中的文字看不清楚不是因为转换的不好。是由于为了上传,把文件大小限制在100K以内,所以图片质量只好妥协了。

      最后Word生成的版面已经失去了原先的样式了,当然文字都已经“抠”下来了。版式已经失去了,需要您去重排。但如果只是想纯粹的copy+paste的话,就不必麻烦去排版了。

      如果兄台试验成功的话,以后可以多多为西西贡献好文哦

      元宝推荐:Highway,
    • 家园 应该可以直接选中然后COPY的啊。

      实在不行,用OCR软件来图像文字识别。

      拷屏,或者打印以后扫描,再OCR。

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河