1 說(shuō)明
1.1 Tesseract
1.1.1 是目前公認(rèn)最優(yōu)秀、最精確的開(kāi)源 OCR 系統(tǒng) 。
1.1.2 目前由 Google 贊助 。
1.1.3 優(yōu)點(diǎn):極高的精確度,很高的靈活性,還可以通過(guò)訓(xùn)練識(shí)別出任何字體,也可以識(shí)別出 Unicode 字符 。
1.2 python的tesseract進(jìn)行有關(guān)庫(kù):有2個(gè) 。
1.2.1 tesserocr和pytesseract是Python的2個(gè)OCR識(shí)別庫(kù) 。
1.2.2 tesserocr和pytesseract的核心都是tesseract 。
1.3 內(nèi)容
1.3.1 tesseract,tesserocr和pytesseract的安裝 。
1.3.2 基本使用教程,入門(mén)級(jí),講解清楚,一秒入門(mén),適合收藏 。

文章插圖
2 tesseract安裝
2.1 本機(jī)是deepin-linux操作系統(tǒng),安裝方法如下:
#在Ubuntu、Debian和Deepin系統(tǒng)下,安裝命令如下: sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev2.2 查看默認(rèn)安裝語(yǔ)言:沒(méi)有中文
tesseract --list-langs結(jié)果:
List of available languages (3): osd eng equ2.3 中文等語(yǔ)言包的安裝:
2.3.1 方法一:
git clone https://github.com/tesseract-ocr/tessdata.git #我失敗了,你懂的2.3.2 方法二:
https://github.com/tesseract-ocr/tessdata #網(wǎng)頁(yè)手動(dòng)下載,我竟然也失敗了2.3.3 方法三:
自己網(wǎng)上搜索下載,好心人的資源,我成功了,自己找吧,有的,我這里就不放了 。
2.3.4 將下載的語(yǔ)音包解壓,復(fù)制到
/usr/share/tesseract-ocr/tessdata下 。
2.4 再查看一下能支持的語(yǔ)言包,可以支持129種語(yǔ)言了 。

文章插圖
3 tesseract的使用
3.1 終端:
tesseract /home/xgj/Desktop/tesserocr/1.png /home/xgj/Desktop/tesserocr/output-13.2 說(shuō)明:1.png識(shí)別的文字的圖片,生成output-1.txt文件,默認(rèn)英文識(shí)別 。
3.3 注意:識(shí)別圖片不能太小 。
Error in pixGenerateHalftoneMask: pix too small: w = 150, h = 523.4 中文識(shí)別,-l chi_sim代表語(yǔ)言為中文簡(jiǎn)體 。
tesseract /home/xgj/Desktop/tesserocr/4.png /home/xgj/Desktop/tesserocr/output-4 -l chi_sim

文章插圖
4 python的tesseract封裝庫(kù)
4.1 安裝:
pip install tesserocr pillow #默認(rèn)附帶安裝pillow讀取圖片 pip install pytesseract #同上,實(shí)際工作中,安裝一個(gè)就可以了,使用相同4.2 識(shí)別圖

文章插圖
4.3 pytesseract的使用
4.3.1 效果圖

文章插圖
4.3.2 代碼
import pytesseract # PIL庫(kù)的安裝: pip install Pillow from PIL import Image # 讀取圖片 image = Image.open("/home/xgj/Desktop/tesserocr/5.png") # 識(shí)別圖片 a=pytesseract.image_to_string(image, config="-psm 7",lang='chi_sim') #打印結(jié)果 print(a)4.4 tesserocr使用,代碼如下:
import tesserocr #可識(shí)別中文 #方法一 print(tesserocr.file_to_text('/home/xgj/Desktop/tesserocr/5.png',lang='chi_sim')) #方法二 from PIL import Image #讀取圖片 image = Image.open('/home/xgj/Desktop/tesserocr/5.png') print(tesserocr.image_to_text(image,lang='chi_sim'))5 補(bǔ)充一下終端法:
tesseract /home/xgj/Desktop/tesserocr/5.png result -l chi_sim && cat result.txt

文章插圖

文章插圖
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專(zhuān)業(yè)人士給予相關(guān)指導(dǎo)!
「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助:- 推薦幾個(gè)對(duì)社會(huì)時(shí)事評(píng)論的網(wǎng)站?
- 網(wǎng)站關(guān)鍵詞挖掘和分析的方法 關(guān)鍵詞挖掘工具有哪些
- 公司網(wǎng)站制作的步驟 企業(yè)網(wǎng)站怎么建設(shè)方案
- 國(guó)內(nèi)所有社會(huì)新聞網(wǎng)站有哪些?
- 有什么軟件或網(wǎng)站可以看一些社會(huì)熱點(diǎn)時(shí)評(píng)?
- 鄭州社保查詢(xún)網(wǎng)站是多少?
- 財(cái)經(jīng)新聞網(wǎng)站有哪些?哪個(gè)最好?
- 精英點(diǎn)評(píng)網(wǎng)是什么網(wǎng)站?
- 京東可以分期付款嗎 有可以分期付款的購(gòu)物網(wǎng)站嗎
- 一句戲言,一場(chǎng)意外 日本正能量不良網(wǎng)站直接進(jìn)入
