五千年(敝帚自珍)

主题:从PDF文件中提取文字的问题。 -- johny

共:💬31 🌺5
全看树展主题 · 分页首页 上页
/ 3
下页 末页
家园 收到,谢谢。

大家一起学习研究啊,呵呵。

家园 强贴,加精加精啊。

虽然我只有OFFICE 2000,还是要顶一下的。

家园 【bug report】为什么我打开后里面全是空白呢?

我用的是Acrobat Reader 6.01

家园 补充:那个是不是只能识别英文?ACROBAT本身是可以直接识别的

是acrobat不是 READER。

在TOOLS下面有个PAPER CAPTURE的功能,可以对图形文字进行识别,并且基本上保持了原来的格式。

但是我用的,只能识别英文。

家园 这个功能好,虽说只能对英文用。

不知道有没有人做插件?

家园 显示空白?原因自然是没有装中文字体呗.....

启动reader 6的时候,难道没有提示让你下载什么东西么?如果有,那就是了,你让他下载好了(10MB左右).....

实在不行,改装7.0也可以,打开pDF的时候,肯定会提示你要下载中文字体部件的,呵呵呵

家园 可以识别几种语言

中文,英文,法文,西班牙文,还有几种记不得了。

不过我目前只试过用它去识别英文,还没机会尝试去识别其它语言。所以效果如果就不得而知了。

家园 刚去查了一下,不支持中文。
家园 在我的电脑上是支持的

不过大概需要把默认的的语言设成中文吧。

点看全图

您看看如果设置成这样了,还不行的话,可能要把Windows的默认语言设成中文,还有就是要安装东亚语言包。

家园 刚才去Perform了一下

看来真的是不行。

虽然有中文的选项,但无法完成扫描。

家园 不用这么复杂吧!?

Acrobat可以把PDF文件另存为其他图形格式,比如TIFF或JPG什么的,然后再OCR就行了。

家园 没有那么复杂吧?

没有那么复杂啊!可以载一个叫Scansoft PDF Converter 的软件,专门把PDF文件转化成word文件。而且是和Microsoft Office开发小组联合开发的,和office兼容性不错。

家园 他那文件里是图形文字,并不是文本,所以比较复杂。
家园 妙绝,在英文windows XP+

英文acrobat reader 6 + 中文office2003下提取中文成功。

每次打印都看到那个东东,才知道能干啥。

还有什么绝招,望高手赐教。

家园 能提取中文的话,那就更加实用了,呵呵
全看树展主题 · 分页首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河