五千年(敝帚自珍)

主题:踏雪寻痕-从文革到陆肆老报刊拾零-1-开篇 -- 龙眼

共:💬205 🌺1180 🌵81
全看分页树展 · 主题 跟帖
家园 百度云有免费的ocr API

比如有的PDF文件,是扫描后转换的。我就先把每页转换成PNG,然后用百度的云服务转换成文本。

我一般就是写个Python脚本转换。

你需要的话,我可以分享给你,或者贴出来。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河