OCR
圖形辨識
OCR圖形辨識Java應用
2017/12/13 15:30:58
0
3154
OCR圖形辨識Java應用
簡介 |
將OCR運用在程式上,將圖形轉成文字供系統使用 |
作者 |
陳志祥 |
1. 關於OCR
什麼是OCR
OCR是光學文字辨識,是從英文 Optical Character Recognition 翻譯而來,而OCR取自這三個英文字的第一個英文字,OCR的主要目的是將圖像中文字轉化成電腦能夠識別的電子訊號
OCR應用範圍
- 建立各種知識資料庫:輸入大量各種報紙、中文書刊、雜誌等。
- 節省人力個別打字的時間:如早期出版或發行的文章及圖書,利用OCR輸入至電腦,文字也可重新編排。
- 結合語言輸出:將文字利用OCR辨識之後,利用電腦的語音輸出,可以讓不識字、視覺障礙、年長使用者以聽覺方式聽 到文章。如Plustek Book Reader。
-文字翻譯:使用者可以利用 OCR,將希望翻譯的文字段落或文章輸入電腦,另外再配合翻譯的軟體等,快速地將文字翻 譯成其他語言。
- 節省人力個別打字的時間:如早期出版或發行的文章及圖書,利用OCR輸入至電腦,文字也可重新編排。
- 結合語言輸出:將文字利用OCR辨識之後,利用電腦的語音輸出,可以讓不識字、視覺障礙、年長使用者以聽覺方式聽 到文章。如Plustek Book Reader。
-文字翻譯:使用者可以利用 OCR,將希望翻譯的文字段落或文章輸入電腦,另外再配合翻譯的軟體等,快速地將文字翻 譯成其他語言。
2. 目的
3. 開始前準備
本測試架構建立於以下版本的環境:
l JDK6
l STS 3.1.0.RELEASE
l tesseract-ocr-3.0.2
先至https://sourceforge.net/projects/tesseract-ocr-alt/files/ 下載Tesseract-OCR安裝包
解壓縮至自訂路徑
4. 設定與測試
首先建立一張英數字圖片
至tesseract 資料夾,cmd tesseract 可以看到參數說明
將以下程式透過Java Process執行,並將結果輸出到控制台
結果輸出,成功辨識
5. 結語
至目前為止,OCR辨識正確率還不夠精準,尤其是用在中文字上,因此在實質上的應用不大,通常修正後還需要人工來確認準確性,即便可以透過訓練修正來提高辨識的精準度,準確率仍是一大難題,可以期盼有朝一日能夠克服這個難關,套用於各種應用上。