择天记小说网

图像识别软件tesseratc安装及使用方法

1 下载

1.1 Tesseract-OCR 4.0版本下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe

1.2 其他版本下载地址:

https://digi.bib.uni-mannheim.de/tesseract/

2安装

2.1 双击安装;

2.2 点击“运行”继续

2.3 点击“next”继续

 

2.4 选择下载包(在additional language data (download 下选择中数学公式库和中文库Chinese(simplified)(traditional)),点击“next”继续

554931-20180913135456433-1933372450.png


如果安装过程中获取语言包失败,可以自己下载

语言包github下载地址:https://github.com/tesseract-ocr/tessdata

###安装tesseract-ocr语言包

我们去GitHub下载我们需要的语言包,这里我只下载了chi_tra.traineddata和chi_sim.traineddata

github:tesseract-ocr/tessdata

然后放到*\Tesseract-OCR\tessdata路径下面。


可以通过tesseract --list-langs查看本地语言包:

554931-20180913135456433-1933372450.png



2.5 选择安装路径(该演示文档里选择安装在C:\KFSofts\Tesseract-OCR目录下)

2.6 直接点击“install”,开始自动化安装,直到完成:

3环境配置

4.1 将Tesseract-OCR安装目录(C:\KFSofts\Tesseract-OCR)加入环境变量path中;

 

4.2 添加变量名TESSDATA_PREFIX 并赋值为C:\KFSofts\Tesseract-OCR\tessdata


cmd打开命令终端,输入:tesseract -v,可以看到版本信息

可以看到就说明可以了

环境变量添加完成之后要重启电脑!!!

4 简单使用

4.1  cmd命令使用

(命令格式:tesseract  目标图片  生成的box文件  语言包  makebox ):

比如:

C:/KFSofts/Tesseract-OCR/tesseract C:\Users\Administrator\Desktop\OCR\img\11.png C:\Users\Administrator\Desktop\OCR\img\resulit -l chi_sim makebox

 

######

4.2 python调用 PILpytesseract库,代码如下(该库都可以通过PIP安装):


首先我们需要安装PIL和pytesseract库。
PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。
pytesseract:图像识别库。

我这里使用的是python3.6,PIL不支持python3所以使用如下命令

pip install pytesseract 

pip install pillow


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
image = Image.open('123.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 这样就能识别中文了
text = pytesseract.image_to_string(image)
print(text)

  

 

4.3有时候有需要修改***data\Lib\site-packages\pytesseract下的pytesseract.py)

5参考文档https://www.cnblogs.com/wangkevin5626/p/9640165.html