目录
使用Python+Tesseract-OCR识别图片文字并保存到word文档安装Tesseract-OCR配置Tesseract-OCR通过CMD验证Tesseract-OCR工作安装pytesseract代码示例示例验证注意事项示例图片结果展示学习过程小结使用Python+Tesseract-OCR识别图片文字并保存到word文档
本文通过使用Tesseract-OCR进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门,由于对于中文图片的识别率并不高,需要后续优化。
安装Tesseract-OCR
Tesseract是一个开源文本识别引擎,通过Apache 2.0授权可用。可以直接使用,或者通过接口编程从图片提取文本,该引擎广泛支持各种语言,本文以Python为例说明:
去Windows安装包下载页面,选择需要的位数
版本.运行安装包,一路下一步直至安装完成;
配置Tesseract-OCR
添加安装目录到系统环境变量path,比如:
//添加安装目录到系统pathC:\Program Files (x86)\Tesseract-OCR;
通过CMD验证Tesseract-OCR工作
安装pytesseract
//cmd运行下列命令pip install pytesseract
代码示例
from PIL import Imageimport pytesseractimport osimport iotessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'txt = pytesseract.image_to_string(Image.open('./img/0804.jpg'), lang='chi_sim', config=tessdata_dir)print(txt)if not os.path.exists('./result'):os.mkdir('./result')with io.open('./result/test.doc', 'w') as fp:fp.write(txt)
示例验证注意事项
中文图片需要使用参数lang=‘chi_sim’
图片路径可自己设定,比如:D:/test.jpg
如果安装Tesseract-OCR时未安装该数据包,可重新运行安装程序,并选择额外的语言包进行安装
为避免系统变量设置问题程序不能找到训练数据,建议设置tessdata_dir
参数
print(txt)为调试使用,可删除或者注释掉
示例图片
结果展示
识别率不够高,需要继续优化,希望有高手指点(抱拳)
学习过程小结
学习流程图:
Actions speak louder than words.
210 = 1024.