成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專(zhuān)欄INFORMATION COLUMN

python利用Tesseract識(shí)別驗(yàn)證碼

王陸寬 / 2742人閱讀

摘要:無(wú)論是是自動(dòng)化登錄還是爬蟲(chóng),總繞不開(kāi)驗(yàn)證碼,這次就來(lái)談?wù)勚泄鈱W(xué)識(shí)別驗(yàn)證碼模塊和。和是的一個(gè)識(shí)別庫(kù),但其實(shí)是對(duì)做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。

無(wú)論是是自動(dòng)化登錄還是爬蟲(chóng),總繞不開(kāi)驗(yàn)證碼,這次就來(lái)談?wù)刾ython中光學(xué)識(shí)別驗(yàn)證碼模塊tesserocrpytesseract。tesserocrpytesseract是Python的一個(gè)OCR識(shí)別庫(kù),但其實(shí)是對(duì)tesseract做的一層Python API封裝,pytesseract是Google的Tesseract-OCR引擎包裝器;所以它們的核心是tesseract,因此在安裝tesserocr之前,我們需要先安裝tesseract。
下載安裝

下載地址:https://digi.bib.uni-mannheim...

下載完成后,雙擊安裝,可以勾選Additional language data(download)選項(xiàng)來(lái)安裝OCR識(shí)別支持的語(yǔ)言包,但下載語(yǔ)言包實(shí)在是慢,我們可以直接從https://github.com/tesseract-... 下載zip的語(yǔ)言包壓縮文件,解壓后將tessdata-master中的文件復(fù)制到Tesseract的安裝目錄C:Program Files (x86)Tesseract-OCR essdata目錄下,最后我們配置下環(huán)境變量,我們將C:Program Files (x86)Tesseract-OCR添加到環(huán)境變量中。進(jìn)入命令提示符,輸入tesseract,顯示下圖結(jié)果,說(shuō)明配置完成

查看安裝了的語(yǔ)言包:tesseract --list-langs

顯示我一共安裝了167種語(yǔ)言包,里邊包含英文或者其他字符。

測(cè)試

實(shí)驗(yàn)用的二維碼

基本使用語(yǔ)法
tesseract image.png result (tesseract 圖片名稱(chēng) 生成文件名稱(chēng))

結(jié)果

由結(jié)果來(lái)看,識(shí)別出來(lái)了P、2和X,但是把C識(shí)別成了G,識(shí)別度還是比較高,接下來(lái)看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下載安裝 pip install pytesseract

識(shí)別驗(yàn)證碼腳本

import pytesseract
from PIL import Image

im=Image.open("pin.png")
print(pytesseract.image_to_string(im))

結(jié)果

這樣識(shí)別的結(jié)果同樣跟上文一樣,個(gè)別字符識(shí)別的不是很準(zhǔn)確

圖像處理

現(xiàn)在網(wǎng)站上的二維碼設(shè)計(jì)的通常很難復(fù)雜,如果直接識(shí)別的話很難識(shí)別出來(lái),下面這段代碼是進(jìn)行灰度處理和二值化

import pytesseract
from PIL import Image

im=Image.open("5.jpg")
#進(jìn)行置灰處理
im=im.convert("L")
#這個(gè)是二值化閾值
threshold=150
table=[]
for i in range(256):
    if i

原圖

置灰和二值化后

想要提高識(shí)別率只能下載訓(xùn)練好的語(yǔ)言包,如上述所說(shuō),或者用深度學(xué)習(xí)的方法訓(xùn)練機(jī)器
原文地址:https://nolon.xyz/archives/77/

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/43054.html

相關(guān)文章

  • Python圖像處理之圖片驗(yàn)證識(shí)別

    摘要:在上一篇博客圖像處理之圖片文字識(shí)別中我們介紹了在中如何利用軟件來(lái)識(shí)別圖片中的英文與中文,本文將具體介紹如何在中利用軟件來(lái)識(shí)別驗(yàn)證碼數(shù)字加字母。 ??在上一篇博客Python圖像處理之圖片文字識(shí)別(OCR)中我們介紹了在Python中如何利用Tesseract軟件來(lái)識(shí)別圖片中的英文與中文,本文將具體介紹如何在Python中利用Tesseract軟件來(lái)識(shí)別驗(yàn)證碼(數(shù)字加字母)。??我們?cè)诰W(wǎng)...

    kk_miles 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---4、數(shù)據(jù)庫(kù)的安裝:MySQL、MongoDB、Redis

    摘要:運(yùn)行結(jié)果如果運(yùn)行結(jié)果一致則證明安裝成功。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)數(shù)據(jù)庫(kù)的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---數(shù)據(jù)庫(kù)的安裝:MySQL、MongoDB、Redis 抓取下網(wǎng)頁(yè)代碼之后,下一步就是從網(wǎng)頁(yè)中提取信息,提取信息的方式有...

    xbynet 評(píng)論0 收藏0
  • OCR識(shí)別驗(yàn)證

    摘要:識(shí)別網(wǎng)站驗(yàn)證碼詳見(jiàn)維基百科或者百度百科識(shí)別的驗(yàn)證碼原理采集一批驗(yàn)證碼,根據(jù)圖片特點(diǎn)進(jìn)行初步處理二值化灰度化濾波降噪等處理然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準(zhǔn)確。 最近在爬某網(wǎng)站,老是蹦出來(lái)驗(yàn)證碼,就想著找個(gè)OCR破了這個(gè)驗(yàn)證碼,然后就開(kāi)始了OCR探索之旅。 首先簡(jiǎn)單說(shuō)一下什么是OCR OCR是(Optical Character Recognition,光學(xué)字符識(shí)別)的...

    Yangyang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<