Android OCR之tesseract

AWang 發(fā)布于2019-08-14 15:42 / 1512人閱讀

摘要：開(kāi)始之旅相關(guān)常量設(shè)置訓(xùn)練數(shù)據(jù)路徑，必須包含文件夾識(shí)別語(yǔ)言英文識(shí)別語(yǔ)言簡(jiǎn)體中文英文識(shí)別設(shè)置圖片可以緩存獲取緩存的初始化的訓(xùn)練數(shù)據(jù)路徑與語(yǔ)言設(shè)置識(shí)別模式設(shè)置要識(shí)別的圖片簡(jiǎn)體中文識(shí)別與英文識(shí)別類似。

Android OCR之tesseract 1. 開(kāi)源工具簡(jiǎn)介

tesseract是非常有名的開(kāi)源OCR工具，但是要將它配置到Android開(kāi)發(fā)環(huán)境中可能要費(fèi)點(diǎn)功夫，別擔(dān)心，github上面有好人幫助我們封裝了Android開(kāi)發(fā)環(huán)境的tesseract配置，這就是Android平臺(tái)上OCR開(kāi)源項(xiàng)目tess-two。

2. 環(huán)境配置

利用tess-two配置OCR環(huán)境非常簡(jiǎn)單。

首先，設(shè)置工程的ndk路徑。

其次，在模塊中添加依賴：compile "com.rmtheis:tess-two:6.0.0"。

3. 數(shù)據(jù)準(zhǔn)備

要進(jìn)行OCR還要獲取訓(xùn)練數(shù)據(jù)tessdata，下載該訓(xùn)練數(shù)據(jù)，到時(shí)候?qū)⒂?xùn)練數(shù)據(jù)弄到自己的Android設(shè)備上就行了。

注意：不要把所有訓(xùn)練數(shù)據(jù)都弄到Android設(shè)備上，因?yàn)橛?xùn)練數(shù)據(jù)比較大，需要用到什么語(yǔ)言的數(shù)據(jù)就只把這些語(yǔ)言對(duì)應(yīng)的數(shù)據(jù)弄到Android設(shè)備上。

比如，我一般識(shí)別只用到識(shí)別英文與簡(jiǎn)體中文，因此只需要將eng.traineddata，chi_sim.traineddata弄到Android設(shè)備上就行了。

4. 開(kāi)始Android OCR之旅

相關(guān)常量設(shè)置：

    //訓(xùn)練數(shù)據(jù)路徑，必須包含tesseract文件夾
    static final String TESSBASE_PATH = "/storage/emulated/0/Download/tesseract/";
    //識(shí)別語(yǔ)言英文
    static final String DEFAULT_LANGUAGE = "eng";
    //識(shí)別語(yǔ)言簡(jiǎn)體中文
    static final String CHINESE_LANGUAGE = "chi_sim";

英文識(shí)別：

     public void EnglishOCR(){
        //設(shè)置圖片可以緩存
        english.setDrawingCacheEnabled(true);
        //獲取緩存的bitmap
        final Bitmap bmp = english.getDrawingCache();
        final TessBaseAPI baseApi = new TessBaseAPI();
        //初始化OCR的訓(xùn)練數(shù)據(jù)路徑與語(yǔ)言
        baseApi.init(TESSBASE_PATH, DEFAULT_LANGUAGE);
        //設(shè)置識(shí)別模式
        baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_SINGLE_LINE);
        //設(shè)置要識(shí)別的圖片
        baseApi.setImage(bmp);
        english.setImageBitmap(bmp);
        englishtext.setText(baseApi.getUTF8Text());
        baseApi.clear();
        baseApi.end();
     }

簡(jiǎn)體中文識(shí)別與英文識(shí)別類似。

5. 程序界面

程序源代碼下載：https://github.com/lavor-zl/FunctionsDemo

歡迎關(guān)注我的微信公眾號(hào)：Android技術(shù)漫談

GPU云服務(wù)器云服務(wù)器 Tesseract-OCR Tesseract OCR 谷歌 ocr

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/65958.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

AWang

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

爬蟲(chóng) + 自動(dòng)化利器 selenium 之自學(xué)成才篇（二）

閱讀 2921·2021-10-09 09:44
[CSS]《CSS揭秘》第四章——視覺(jué)效果

閱讀 3616·2019-08-30 15:54
webpack手動(dòng)構(gòu)建vue和vue-cli構(gòu)建使用 px2rem-loader ,全局自動(dòng)轉(zhuǎn)換px

閱讀 2225·2019-08-30 14:16
微信小程序flex布局

閱讀 2853·2019-08-30 13:09
記錄最近的一些遇到的前端面試題

閱讀 883·2019-08-30 13:08
前端每日實(shí)戰(zhàn)：117# 視頻演示如何用純 CSS 創(chuàng)作一只憤怒小鳥(niǎo)中的紅火

閱讀 1360·2019-08-29 16:29
監(jiān)聽(tīng)瀏覽器刷新及關(guān)閉

閱讀 1779·2019-08-26 13:57
ES6入門之對(duì)象的擴(kuò)展

閱讀 1987·2019-08-26 13:53

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Android OCR之tesseract

相關(guān)文章

**Python圖像處理之圖片文字識(shí)別（OCR）**

**識(shí)別圖片中的文字 - Tesseract 和百度云OCR的對(duì)比**

[譯]OpenCV OCR and text recognition with Tesseract

發(fā)表評(píng)論

0條評(píng)論

AWang

男|高級(jí)講師

TA的文章

爬蟲(chóng) + 自動(dòng)化利器 selenium 之自學(xué)成才篇（二）

[CSS]《CSS揭秘》第四章——視覺(jué)效果

webpack手動(dòng)構(gòu)建vue和vue-cli構(gòu)建使用 px2rem-loader ,全局自動(dòng)轉(zhuǎn)換px

微信小程序flex布局

記錄最近的一些遇到的前端面試題

前端每日實(shí)戰(zhàn)：117# 視頻演示如何用純 CSS 創(chuàng)作一只憤怒小鳥(niǎo)中的紅火

監(jiān)聽(tīng)瀏覽器刷新及關(guān)閉

ES6入門之對(duì)象的擴(kuò)展

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Android OCR之tesseract

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！