成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

mysql全文索引的原理

tulayang / 2425人閱讀

摘要:分詞的方法基本上是二元分詞法最大匹配法和統(tǒng)計(jì)方法。索引的數(shù)據(jù)結(jié)構(gòu)基本上采用倒排索引的結(jié)構(gòu)。全文檢索的索引被稱為倒排索引,之所以成為倒排索引,是因?yàn)閷⒚恳粋€(gè)單詞作為索引項(xiàng),根據(jù)該索引項(xiàng)查找包含該單詞的文本。

全文檢索是對(duì)大數(shù)據(jù)文本進(jìn)行索引,在建立的索引中對(duì)要查找的單詞進(jìn)行進(jìn)行搜索,定位哪些文本數(shù)據(jù)包括要搜索的單詞。因此,全文檢索的全部工作就是建立索引和在索引中搜索定位,所有的工作都是圍繞這兩個(gè)來(lái)進(jìn)行的。

建立全文索引中有兩項(xiàng)非常重要,一個(gè)是如何對(duì)文本進(jìn)行分詞,一是建立索引的數(shù)據(jù)結(jié)構(gòu)。分詞的方法基本上是二元分詞法、最大匹配法和統(tǒng)計(jì)方法。索引的數(shù)據(jù)結(jié)構(gòu)基本上采用倒排索引的結(jié)構(gòu)。

分詞的好壞關(guān)系到查詢的準(zhǔn)確程度和生成的索引的大小。在中文分詞發(fā)展中,早期經(jīng)常使用分詞方式是二元分詞法,該方法的基本原理是將包含中文的句子進(jìn)行二元分割,不考慮單詞含義,只對(duì)二元單詞進(jìn)行索引。因此該方法所分出的單詞數(shù)量較多,從而產(chǎn)生的索引數(shù)量巨大,查詢中會(huì)將無(wú)用的數(shù)據(jù)檢索出來(lái),好處是算法簡(jiǎn)單不會(huì)漏掉檢索的數(shù)據(jù)。之后又發(fā)展出最大匹配分詞方法,該方法又分為正向最大分詞和逆向最大分詞。其原理和查字典類似,對(duì)常用單詞生成一個(gè)詞典,分析句子的過(guò)程中最大的匹配字典中的單詞,從而將句子拆分為有意義的單詞鏈。最大匹配法中正向分詞方法對(duì)偏正式詞語(yǔ)的分辨容易產(chǎn)生錯(cuò)誤,比如“首飾和服裝”會(huì)將“和服”作為單詞分出。達(dá)夢(mèng)數(shù)據(jù)庫(kù)采用的是改進(jìn)的逆向最大分詞方法,該分詞方法較正向正確率有所提高。最為復(fù)雜的是通過(guò)統(tǒng)計(jì)方式進(jìn)行分詞的方法。該方法采用隱式馬爾科夫鏈,也就是后一個(gè)單詞出現(xiàn)的概率依靠于前一個(gè)單詞出現(xiàn)的概率,最后統(tǒng)計(jì)所有單詞出現(xiàn)的概率的最大為分詞的依據(jù)。這個(gè)方法對(duì)新名詞和地名的識(shí)別要遠(yuǎn)遠(yuǎn)高于最大匹配法,準(zhǔn)確度隨著取樣文本的數(shù)量的增大而提高。

 二元分詞方法和統(tǒng)計(jì)方法是不依賴于詞典的,而最大匹配法分詞方法是依賴于詞典的,詞典的內(nèi)容決定分詞結(jié)構(gòu)的好壞。

全文檢索的索引被稱為倒排索引,之所以成為倒排索引,是因?yàn)閷⒚恳粋€(gè)單詞作為索引項(xiàng),根據(jù)該索引項(xiàng)查找包含該單詞的文本。因此,索引都是單詞和唯一記錄文本的標(biāo)示是一對(duì)多的關(guān)系。將索引單詞排序,根據(jù)排序后的單詞定位包含該單詞的文本。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/30494.html

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<