![]()
1 下载
1.1 Tesseract-OCR 4.0版本下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe
1.2 其他版本下载地址:
https://digi.bib.uni-mannheim.de/tesseract/
![]()
2安装
2.1 双击安装;
2.2 点击“运行”继续
2.3 点击“next”继续
2.4 选择下载包(在additional language data (download 下选择中数学公式库和中文库Chinese(simplified)(traditional)),点击“next”继续
如果安装过程中获取语言包失败,可以自己下载
语言包github下载地址:https://github.com/tesseract-ocr/tessdata
###安装tesseract-ocr语言包
我们去GitHub下载我们需要的语言包,这里我只下载了chi_tra.traineddata和chi_sim.traineddata
github:tesseract-ocr/tessdata
然后放到*\Tesseract-OCR\tessdata路径下面。
可以通过tesseract --list-langs查看本地语言包:
2.5 选择安装路径(该演示文档里选择安装在C:\KFSofts\Tesseract-OCR目录下)
2.6 直接点击“install”,开始自动化安装,直到完成:
![]()
3环境配置
4.1 将Tesseract-OCR安装目录(C:\KFSofts\Tesseract-OCR)加入环境变量path中;
4.2 添加变量名TESSDATA_PREFIX 并赋值为C:\KFSofts\Tesseract-OCR\tessdata
cmd打开命令终端,输入:tesseract -v,可以看到版本信息
可以看到就说明可以了
环境变量添加完成之后要重启电脑!!!
![]()
4 简单使用
4.1 cmd命令使用
(命令格式:tesseract 目标图片 生成的box文件 语言包 makebox ):
比如:
C:/KFSofts/Tesseract-OCR/tesseract C:\Users\Administrator\Desktop\OCR\img\11.png C:\Users\Administrator\Desktop\OCR\img\resulit -l chi_sim makebox
######
4.2 python调用 PIL和pytesseract库,代码如下(该库都可以通过PIP安装):
pip install pytesseract
pip install pillow
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'E:\Program Files (x86)\Tesseract-OCR\tesseract.exe' image = Image.open('123.png') # text = pytesseract.image_to_string(image,lang='chi_sim') # 这样就能识别中文了 text = pytesseract.image_to_string(image) print(text)
4.3有时候有需要修改***data\Lib\site-packages\pytesseract下的pytesseract.py)
5参考文档:https://www.cnblogs.com/wangkevin5626/p/9640165.html