成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

怎么用python正則表達(dá)式提取/匹配中文漢字

89542767 / 1409人閱讀

  小編寫這篇文章的一個主要目的,主要是給大家去做一個解答,解答的內(nèi)容主要還是python相關(guān)事宜,比如,可以用python正則表達(dá)式去匹配和提取中文漢字,那么,具體的內(nèi)容做法是什么呢?下面就給大家詳細(xì)解答下。


  python用正則表達(dá)式提取中文


  Python re正則匹配中文,其實非常簡單,把中文的unicode字符串轉(zhuǎn)換成utf-8格式就可以了,然后可以在re中隨意調(diào)用


  unicode中中文的編碼為/u4e00-/u9fa5,因此正則表達(dá)式u”[u4e00-u9fa5]+”可以表示一個或者多個中文字符


  >>>import re
  >>>s='中文:123456aa哈哈哈bbcc'.decode('utf8')
  >>>s
  u'u4e2du6587uff1a123456aau54c8u54c8u54c8bbcc'
  >>>print s
  中文:123456aa哈哈哈bbcc
  >>>re.match(u"[u4e00-u9fa5]+",s)
  <_sre.SRE_Match object at 0xb77742c0>
  >>>pat='中文'.decode("utf8")
  >>>re.search(pat,s)
  <_sre.SRE_Match object at 0x16a16df0>
  >>>newpat='這里是中文內(nèi)容'.decode("utf8")
  >>>news=re.sub(pat,newpat,s)
  >>>print news


  這里是中文內(nèi)容:123456aa哈哈哈bbcc


  python正則如何匹配中文漢字


  正則表達(dá)式匹配中文漢字,在實際應(yīng)用中十分常見。


  比如:爬蟲網(wǎng)頁文本提取、驗證用戶輸入標(biāo)準(zhǔn)等。


  以下面文本字符串為例,匹配出astr這個字符串中的所有漢字。


  import re
  astr='''aaaaa何時when杖爾看see南雪snow,我me與梅花plum blossom兩白頭'''


  下面介紹兩種方法(本文環(huán)境為python3)


  一、使用Unicode編碼來匹配中文


  常見的中文Unicode編碼范圍:u4e00-u9fa5


  實現(xiàn)匹配代碼:re.findall(’[u4e00-u9fa5]’,astr)


  import re
  astr='''aaaaa何時when杖爾看see南雪snow,我me與梅花plum blossom兩白頭'''
  res=re.findall('[u4e00-u9fa5]',astr)


  print(res)


  匹配結(jié)果:

01.png

  二、直接使用中文漢字實現(xiàn)中文匹配


  沒使用過可能還真不知道,中文匹配還可以這樣


  實現(xiàn)匹配代碼:re.findall(’[一-龥]’,astr)


  import re
  astr='''aaaaa何時when杖爾看see南雪snow,我me與梅花plum blossom兩白頭'''
  res=re.findall('[一-龥]',astr)
  print(res)


  匹配結(jié)果:

02.png

  注:其實這里“一”對應(yīng)的Unicode編碼就是“u4e00”,“龥”(yù)對應(yīng)的Unicode編碼就是“u9fa5”。


  常見非英文字符Unicode編碼范圍:


  u4e00-u9fa5(中文)


  u0800-u4e00(日文)


  uac00-ud7ff(韓文)


  綜上所述,這篇文章就給大家介紹到這里了,希望可以給大家?guī)硪欢◣椭?/p>

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/128316.html

相關(guān)文章

  • 經(jīng)驗拾憶(純手工)=> Python正則全解詳解

    預(yù)編譯 import re re1 = re.compile(r元字符 組成的正則規(guī)則) # 元字符下面會說 re1.方法() # 方法下邊也會說 元字符: 表示普通字符: . # 除了 外 都可以匹配的到 d # 只匹配 純數(shù)字 0-9 D # 和 d相反, 除了數(shù)字全都匹配 ...

    Luosunce 評論0 收藏0
  • PHP正則達(dá)式規(guī)則及常方法整理

    摘要:和均為非負(fù)整數(shù),其中。如果之前至少個獲取的子表達(dá)式,則為后向引用。 注:本文轉(zhuǎn)自 摘取天上星的博客 PHP常用正則表達(dá)式 ^d+$  //非負(fù)整數(shù)(正整數(shù)+ 0) ^[0-9]*[1-9][0-9]*$  //正整數(shù) ^((-d+)|(0+))$  //非正整數(shù)(負(fù)整數(shù)+ 0) ^-[0-9]*[1-9][0-9]*$  //負(fù)整數(shù) ^-?d+$    //整數(shù) ^d+(.d+)?$ ...

    UCloud 評論0 收藏0
  • 使PHP輔助 快速制作一套自己的手寫字體實踐

    摘要:參考代碼地址四制作字體模板把自己最常接觸的漢字找出來之后,需要制作一套字體模板,這套字體模板的用處是讓手寫漢字后,順利的找到對應(yīng)的漢字,這里需要依靠第三方網(wǎng)站提供的一些功能。 一、背景 筆者以前在網(wǎng)上看到有民間高手制作字體的相關(guān)事跡,覺得把自己的手寫字用鍵盤敲出來是一件很有意思的事情,所以一直有時間想制作一套自己的手寫體,前幾天在網(wǎng)上搜索了一下制作字體的方法,發(fā)現(xiàn)技術(shù)上并不是太難,結(jié)合...

    moven_j 評論0 收藏0
  • 正則達(dá)式及多語言操作指南

    摘要:能匹配中的,但不能匹配中的數(shù)量界定符符號定義是一個非負(fù)整數(shù)。則等價于和均為非負(fù)整數(shù),其中。該方法接受一個正則表達(dá)式作為它的第一個參數(shù)。是一個非強(qiáng)制異常類,它表示一個正則表達(dá)式模式中的語法錯誤。 正則表達(dá)式及多語言操作指南 1. 正則表達(dá)式 正則表達(dá)式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個規(guī)則字符串,這個規(guī)則字符串用來表達(dá)對字符串的一...

    ingood 評論0 收藏0
  • 正則達(dá)式及多語言操作指南

    摘要:能匹配中的,但不能匹配中的數(shù)量界定符符號定義是一個非負(fù)整數(shù)。則等價于和均為非負(fù)整數(shù),其中。該方法接受一個正則表達(dá)式作為它的第一個參數(shù)。是一個非強(qiáng)制異常類,它表示一個正則表達(dá)式模式中的語法錯誤。 正則表達(dá)式及多語言操作指南 1. 正則表達(dá)式 正則表達(dá)式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個規(guī)則字符串,這個規(guī)則字符串用來表達(dá)對字符串的一...

    xzavier 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<