怎么用python正則表達(dá)式提取/匹配中文漢字

89542767 發(fā)布于2022-11-11 14:38 / 1409人閱讀

　　小編寫這篇文章的一個主要目的，主要是給大家去做一個解答，解答的內(nèi)容主要還是python相關(guān)事宜，比如，可以用python正則表達(dá)式去匹配和提取中文漢字，那么，具體的內(nèi)容做法是什么呢？下面就給大家詳細(xì)解答下。

　　python用正則表達(dá)式提取中文

　　Python re正則匹配中文，其實非常簡單，把中文的unicode字符串轉(zhuǎn)換成utf-8格式就可以了，然后可以在re中隨意調(diào)用

　　unicode中中文的編碼為/u4e00-/u9fa5，因此正則表達(dá)式u”[u4e00-u9fa5]+”可以表示一個或者多個中文字符

　　&gt;&gt;&gt;import re
　　&gt;&gt;&gt;s='中文：123456aa哈哈哈bbcc'.decode('utf8')
　　&gt;&gt;&gt;s
　　u'u4e2du6587uff1a123456aau54c8u54c8u54c8bbcc'
　　&gt;&gt;&gt;print s
　　中文：123456aa哈哈哈bbcc
　　&gt;&gt;&gt;re.match(u"[u4e00-u9fa5]+",s)
　　&lt;_sre.SRE_Match object at 0xb77742c0&gt;
　　&gt;&gt;&gt;pat='中文'.decode("utf8")
　　&gt;&gt;&gt;re.search(pat,s)
　　&lt;_sre.SRE_Match object at 0x16a16df0&gt;
　　&gt;&gt;&gt;newpat='這里是中文內(nèi)容'.decode("utf8")
　　&gt;&gt;&gt;news=re.sub(pat,newpat,s)
　　&gt;&gt;&gt;print news

　　這里是中文內(nèi)容：123456aa哈哈哈bbcc

　　python正則如何匹配中文漢字

　　正則表達(dá)式匹配中文漢字，在實際應(yīng)用中十分常見。

　　比如：爬蟲網(wǎng)頁文本提取、驗證用戶輸入標(biāo)準(zhǔn)等。

　　以下面文本字符串為例，匹配出astr這個字符串中的所有漢字。

　　import re
　　astr='''aaaaa何時when杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''

　　下面介紹兩種方法（本文環(huán)境為python3）

　　一、使用Unicode編碼來匹配中文

　　常見的中文Unicode編碼范圍：u4e00-u9fa5

　　實現(xiàn)匹配代碼：re.findall(’[u4e00-u9fa5]’,astr)

　　import re
　　astr='''aaaaa何時when杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''
　　res=re.findall('[u4e00-u9fa5]',astr)

　　print(res)

　　匹配結(jié)果：

　　二、直接使用中文漢字實現(xiàn)中文匹配

　　沒使用過可能還真不知道，中文匹配還可以這樣

　　實現(xiàn)匹配代碼：re.findall(’[一-龥]’,astr)

　　import re
　　astr='''aaaaa何時when杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''
　　res=re.findall('[一-龥]',astr)
　　print(res)

　　匹配結(jié)果：

　　注：其實這里“一”對應(yīng)的Unicode編碼就是“u4e00”,“龥”（yù）對應(yīng)的Unicode編碼就是“u9fa5”。

　　常見非英文字符Unicode編碼范圍：

　　u4e00-u9fa5(中文)

　　u0800-u4e00(日文)

　　uac00-ud7ff（韓文）

　　綜上所述，這篇文章就給大家介紹到這里了，希望可以給大家?guī)硪欢◣椭?/p>

GPU云服務(wù)器云服務(wù)器正則匹配漢字正則匹配正則表達(dá)式正則表達(dá)式匹配匹配中文漢字

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/128316.html

發(fā)表評論

登陸后可評論

0條評論

89542767

男|高級講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時間格式與結(jié)構(gòu)型時長詳細(xì)說明

閱讀 1068·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 1064·2023-01-14 11:04
python中的特性管理模式詳細(xì)說明

閱讀 906·2023-01-14 10:48
Python運用fastapi完成上傳圖片

閱讀 2382·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 1150·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫操作

閱讀 1028·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 657·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 735·2023-01-14 10:02

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

怎么用python正則表達(dá)式提取/匹配中文漢字

相關(guān)文章

**經(jīng)驗拾憶（純手工）=> Python正則全解詳解**

**PHP正則表達(dá)式規(guī)則及常用方法整理**

使用PHP輔助快速制作一套自己的手寫字體實踐

**正則表達(dá)式及多語言操作指南**

**正則表達(dá)式及多語言操作指南**

發(fā)表評論

0條評論

89542767

男|高級講師

TA的文章

pythontime控制模塊時間格式與結(jié)構(gòu)型時長詳細(xì)說明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細(xì)說明

Python運用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

怎么用python正則表達(dá)式提取/匹配中文漢字

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！