主题：从PDF文件中提取文字的问题。 -- johny

共:💬31 🌺5

老大河待整

分页树展主题 · 全看首页上页下页末页

家园 从PDF文件中提取文字的问题。
我有本超星的书打成了PDF格式，大家都知道，这种PDF文件里的每一页本质上都是图像。
有没有办法用什么软件把上面的文字“拽”下来贴到帖子里面？
否则我就得一个字一个字敲了，前景恐怖，
- 复从PDF文件中提取文字的问题。
  家园 也请各位帮个忙
  想找一个linux下的pdf reader，开放源码的？哪里能够下载？谢谢了
- 复从PDF文件中提取文字的问题。
  家园 没有那么复杂吧？
  没有那么复杂啊！可以载一个叫Scansoft PDF Converter 的软件，专门把PDF文件转化成word文件。而且是和Microsoft Office开发小组联合开发的，和office兼容性不错。
  - 复没有那么复杂吧？
    家园 他那文件里是图形文字，并不是文本，所以比较复杂。
- 复从PDF文件中提取文字的问题。
  家园 我有简单一法，可以帮兄达到目的，分三步走。
  如果你装有Office system 2003的话（应该不会没有吧），可以这样做：（我不知道其它版本的行不行，我用的是2003）
  一、把你的文档打印到Microsoft Office Document Image Writer上，这是个Office虚拟出来的打印机。打印出来应当是个.mdi的文档。
  二、用Microsoft Document Imaging打开之。在tools-options中选OCR Tab，把OCR Language改成你需要的。然后在tools中选Recognize text using OCR。软件这时候就开始自动扫描图片中的文字，并把图片最后转换成文字。
  三、最后一步，tools->Send text to Word。大功告成！
  附原来图形PDF和生成的Word纯文本
  [SIZE=3]原文档[/SIZE]
  [SIZE=3]转换后的纯文本[/SIZE]
  图中的文字看不清楚不是因为转换的不好。是由于为了上传，把文件大小限制在100K以内，所以图片质量只好妥协了。
  最后Word生成的版面已经失去了原先的样式了，当然文字都已经“抠”下来了。版式已经失去了，需要您去重排。但如果只是想纯粹的copy+paste的话，就不必麻烦去排版了。
  如果兄台试验成功的话，以后可以多多为西西贡献好文哦
  元宝推荐：Highway,
  - 复我有简单一法，可以帮兄达到目的，分三步走。
    家园 妙绝，在英文windows XP+
    英文acrobat reader 6 + 中文office2003下提取中文成功。
    每次打印都看到那个东东，才知道能干啥。
    还有什么绝招，望高手赐教。
    - 复妙绝，在英文windows XP+
      家园 能提取中文的话，那就更加实用了，呵呵
  - 复我有简单一法，可以帮兄达到目的，分三步走。
    家园 补充：那个是不是只能识别英文？ACROBAT本身是可以直接识别的
    是acrobat不是 READER。
    在TOOLS下面有个PAPER CAPTURE的功能，可以对图形文字进行识别，并且基本上保持了原来的格式。
    但是我用的，只能识别英文。
    - 复补充：那个是不是只能识别英文？ACROBAT本身是可以直接识别的
      家园 可以识别几种语言
      中文，英文，法文，西班牙文，还有几种记不得了。
      不过我目前只试过用它去识别英文，还没机会尝试去识别其它语言。所以效果如果就不得而知了。
      - 复可以识别几种语言
        家园 刚去查了一下，不支持中文。
        复刚去查了一下，不支持中文。
        家园 刚才去Perform了一下
        看来真的是不行。
        虽然有中文的选项，但无法完成扫描。
        复刚去查了一下，不支持中文。
        家园 在我的电脑上是支持的
        不过大概需要把默认的的语言设成中文吧。
        您看看如果设置成这样了，还不行的话，可能要把Windows的默认语言设成中文，还有就是要安装东亚语言包。
    - 复补充：那个是不是只能识别英文？ACROBAT本身是可以直接识别的
      家园 这个功能好，虽说只能对英文用。
      不知道有没有人做插件？
  - 复我有简单一法，可以帮兄达到目的，分三步走。
    家园 强贴，加精加精啊。
    虽然我只有OFFICE 2000，还是要顶一下的。
- 复从PDF文件中提取文字的问题。
  家园 应该可以直接选中然后COPY的啊。
  实在不行，用OCR软件来图像文字识别。
  拷屏，或者打印以后扫描，再OCR。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明