Tesseract OCR是一款OCR(optical character recognition,光學字符識別)開源庫,可將包含文本的圖像識別為計算機文字(計算機黑白點陣)。圖像中的文本一般為印刷體文本。
1、Tesseract OCR不僅可以處理簡單的文本,還可以識別多種語言和復雜的文字排版,包括斜體文字和印刷體文字。
2、為了提高識別準確性,Tesseract OCR還提供了一些優化選項;例如是否識別斜體文字、忽略特定字符或識別特定字符等;
3、用戶可以根據需要通過編輯詞典或添加自己的訓練數據來進一步定制OCR引擎以適應特定的需求。
1、在本站下載最新安裝包,按提示安裝
2、安裝進行中,完成即可使用
tesseract-ocr使用教程:
下載完后進行安裝,默認情況下安裝程序會給你配置系統環境變量,以指向安裝目錄。
從開始菜單(或者安裝目錄)的Tesseract-OCR文件夾中,點擊Console,啟動命令行窗口。鍵入命令tesseract,會顯示相關提示信息,可使用命令“tesseract --help-extra”顯示更詳細的幫助信息。
基本語法命令
進行文字識別的基本命令語法如下:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
識別圖片中的英文字母和數字
將圖片保存為文件“D:\temp\abcdef.png”,使用命令
tesseract d:\temp\abcdef.png stdout進行識別
不能識別圖片中的簡體中文
上述軟件安裝過程中,并未安裝簡體中文的訓練數據集。
已有的訓練數據集可使用命令“tesseract --list-langs”查看,也可直接在目錄“D:\Programs\Tesseract-OCR\tessdata”中查看擴展名為traineddata的文件。
網友評論