jieba分詞學(xué)習(xí)筆記（二）

fxp 發(fā)布于2019-07-24 18:16 / 3016人閱讀

分詞模式

jieba分詞有多種模式可供選擇?？蛇x的模式包括：

全切分模式

精確模式

搜索引擎模式

同時(shí)也提供了HMM模型的開(kāi)關(guān)。

其中全切分模式就是輸出一個(gè)字串的所有分詞，

精確模式是對(duì)句子的一個(gè)概率最佳分詞，

而搜索引擎模式提供了精確模式的再分詞，將長(zhǎng)詞再次拆分為短詞。

效果大抵如下：

# encoding=utf-8
import jieba

seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來(lái)到了網(wǎng)易杭研大廈")  # 默認(rèn)是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所，后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))

的結(jié)果為

【全模式】: 我/ 來(lái)到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)

【精確模式】: 我/ 來(lái)到/ 北京/ 清華大學(xué)

【新詞識(shí)別】：他, 來(lái)到, 了, 網(wǎng)易, 杭研, 大廈    (此處，“杭研”并沒(méi)有在詞典中，但是也被Viterbi算法識(shí)別出來(lái)了)

【搜索引擎模式】： 小明, 碩士, 畢業(yè), 于, 中國(guó), 科學(xué), 學(xué)院, 科學(xué)院, 中國(guó)科學(xué)院, 計(jì)算, 計(jì)算所, 后, 在, 日本, 京都, 大學(xué), 日本京都大學(xué), 深造

其中，新詞識(shí)別即用HMM模型的Viterbi算法進(jìn)行識(shí)別新詞的結(jié)果。

值得詳細(xì)研究的模式是精確模式，以及其用于識(shí)別新詞的HMM模型和Viterbi算法。

jieba.cut()

在載入詞典之后，jieba分詞要進(jìn)行分詞操作，在代碼中就是核心函數(shù)jieba.cut()，代碼如下：

 def cut(self, sentence, cut_all=False, HMM=True):
        """
        The main function that segments an entire sentence that contains
        Chinese characters into seperated words.
        Parameter:
            - sentence: The str(unicode) to be segmented.
            - cut_all: Model type. True for full pattern, False for accurate pattern.
            - HMM: Whether to use the Hidden Markov Model.
        """
        sentence = strdecode(sentence)

        if cut_all:
            re_han = re_han_cut_all
            re_skip = re_skip_cut_all
        else:
            re_han = re_han_default
            re_skip = re_skip_default
        if cut_all:
            cut_block = self.__cut_all
        elif HMM:
            cut_block = self.__cut_DAG
        else:
            cut_block = self.__cut_DAG_NO_HMM
        blocks = re_han.split(sentence)
        for blk in blocks:
            if not blk:
                continue
            if re_han.match(blk):
                for word in cut_block(blk):
                    yield word
            else:
                tmp = re_skip.split(blk)
                for x in tmp:
                    if re_skip.match(x):
                        yield x
                    elif not cut_all:
                        for xx in x:
                            yield xx
                    else:
                        yield x

其中，

docstr中給出了默認(rèn)的模式，精確分詞 + HMM模型開(kāi)啟。

第12-23行進(jìn)行了變量配置。

第24行做的事情是對(duì)句子進(jìn)行中文的切分，把句子切分成一些只包含能處理的字符的塊（block），丟棄掉特殊字符，因?yàn)橐恍┰~典中不包含的字符可能對(duì)分詞產(chǎn)生影響。

24行中re_han默認(rèn)值為re_han_default，是一個(gè)正則表達(dá)式，定義如下：

# u4E00-u9FD5a-zA-Z0-9+#&._ : All non-space characters. Will be handled with re_han
re_han_default = re.compile("([u4E00-u9FD5a-zA-Z0-9+#&._]+)", re.U)

可以看到諸如空格、制表符、換行符之類的特殊字符在這個(gè)正則表達(dá)式被過(guò)濾掉。

25-40行使用yield實(shí)現(xiàn)了返回結(jié)果是一個(gè)迭代器，即文檔中所說(shuō)：

jieba.cut 以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator，可以使用 for 循環(huán)來(lái)獲得分詞后得到的每一個(gè)詞語(yǔ)(unicode)

其中，31-40行，如果遇到block是非常規(guī)字符，就正則驗(yàn)證一下直接輸出這個(gè)塊作為這個(gè)塊的分詞結(jié)果。如標(biāo)點(diǎn)符號(hào)等等，在分詞結(jié)果中都是多帶帶一個(gè)詞的形式出現(xiàn)的，就是這十行代碼進(jìn)行的。

關(guān)鍵在28-30行，如果是可分詞的block，那么就調(diào)用函數(shù)cut_block，默認(rèn)是cut_block = self.__cut_DAG，進(jìn)行分詞

jieba.__cut_DAG()

__cut_DAG的作用是按照DAG，即有向無(wú)環(huán)圖進(jìn)行切分單詞。其代碼如下：

def __cut_DAG(self, sentence):
        DAG = self.get_DAG(sentence)
        route = {}
        self.calc(sentence, DAG, route)
        x = 0
        buf = ""
        N = len(sentence)
        while x < N:
            y = route[x][1] + 1
            l_word = sentence[x:y]
            if y - x == 1:
                buf += l_word
            else:
                if buf:
                    if len(buf) == 1:
                        yield buf
                        buf = ""
                    else:
                        if not self.FREQ.get(buf):
                            recognized = finalseg.cut(buf)
                            for t in recognized:
                                yield t
                        else:
                            for elem in buf:
                                yield elem
                        buf = ""
                yield l_word
            x = y

        if buf:
            if len(buf) == 1:
                yield buf
            elif not self.FREQ.get(buf):
                recognized = finalseg.cut(buf)
                for t in recognized:
                    yield t
            else:
                for elem in buf:
                    yield elem

對(duì)于一個(gè)sentence，首先獲取到其有向無(wú)環(huán)圖DAG，然后利用dp對(duì)該有向無(wú)環(huán)圖進(jìn)行最大概率路徑的計(jì)算。
計(jì)算出最大概率路徑后迭代，如果是登錄詞，則輸出，如果是單字，將其中連在一起的單字找出來(lái)，這些可能是未登錄詞，使用HMM模型進(jìn)行分詞，分詞結(jié)束之后輸出。

至此，分詞結(jié)束。

其中，值得跟進(jìn)研究的是第2行獲取DAG，第4行計(jì)算最大概率路徑和第20和34行的使用HMM模型進(jìn)行未登錄詞的分詞，在后面的文章中會(huì)進(jìn)行解讀。

DAG = self.get_DAG(sentence)

    ...

self.calc(sentence, DAG, route)

    ...

recognized = finalseg.cut(buf)

云服務(wù)器 GPU云服務(wù)器 jieba分詞學(xué)習(xí)筆記學(xué)習(xí)筆記一基礎(chǔ)學(xué)習(xí)筆記

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/37653.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

fxp

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

《黑馬（三）》常用網(wǎng)頁(yè)開(kāi)發(fā)工具和骨架標(biāo)簽新增代碼

閱讀 3440·2021-11-22 09:34
SpringCloud升級(jí)之路2020.0.x版-37. 實(shí)現(xiàn)異步的客戶端封裝配置管理的意義與設(shè)計(jì)

閱讀 728·2021-11-19 11:29
Element中的Cascader（級(jí)聯(lián)列表）動(dòng)態(tài)加載?。校瘏^(qū)數(shù)據(jù)

閱讀 1409·2019-08-30 15:43
關(guān)于CSS你應(yīng)該知道的基礎(chǔ)知識(shí) - 樣式應(yīng)用篇

閱讀 2291·2019-08-30 14:24
【每日一包0025】events

閱讀 1919·2019-08-29 17:31
【每日一包0009】group-array

閱讀 1287·2019-08-29 17:17
CSS中的一些小細(xì)節(jié)

閱讀 2675·2019-08-29 15:38
Vue+webpack+Element 兼容問(wèn)題總結(jié)

閱讀 2850·2019-08-26 12:10

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

jieba分詞學(xué)習(xí)筆記（二）

相關(guān)文章

jieba分詞學(xué)習(xí)筆記（三）

分詞，難在哪里？科普+解決方案！

**Python第三方庫(kù)jieba庫(kù)與中文分詞全面詳解**

Python如何生成詞云(詳解)

發(fā)表評(píng)論

0條評(píng)論

fxp

男|高級(jí)講師

TA的文章

《黑馬（三）》常用網(wǎng)頁(yè)開(kāi)發(fā)工具和骨架標(biāo)簽新增代碼

SpringCloud升級(jí)之路2020.0.x版-37. 實(shí)現(xiàn)異步的客戶端封裝配置管理的意義與設(shè)計(jì)

Element中的Cascader（級(jí)聯(lián)列表）動(dòng)態(tài)加載?。校瘏^(qū)數(shù)據(jù)

關(guān)于CSS你應(yīng)該知道的基礎(chǔ)知識(shí) - 樣式應(yīng)用篇

【每日一包0025】events

【每日一包0009】group-array

CSS中的一些小細(xì)節(jié)

Vue+webpack+Element 兼容問(wèn)題總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

jieba分詞學(xué)習(xí)筆記（二）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！