成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

簡單快速的 PHP 詞庫工具

ISherry / 3648人閱讀

摘要:在上找了半天也沒找到我需要的輪子,只好自己擼了一個詞庫工具簡單。支持大詞庫,我自己的詞庫跑起來輕輕松松。還支持回調(diào)式替換哦快速。使用了高大上的樹進(jìn)行匹配,查找耗時跟文本長度相關(guān),跟詞庫大小關(guān)系不大,速度杠杠的。

這么說吧,假如你有一段文本,還有一個巨大的關(guān)鍵詞庫(幾十萬起步),現(xiàn)在需要從文本中找出這些關(guān)鍵詞,甚至要基于關(guān)鍵詞對應(yīng)的值做一些替換,怎么弄?

在這個簡單又常見的需求面前,strtr str_replace preg_replace 什么的集體歇菜了,因?yàn)樵~庫太大。

scws?一開始我也這么弄的,可惜它只能幫你把詞庫中的詞找出來,不能基于關(guān)鍵詞對應(yīng)的值進(jìn)行處理。雖然可以利用詞庫的屬性字段,但它只支持兩個字節(jié),顯然不能滿足需求。

在 Google 上找了半天也沒找到我需要的輪子,只好自己擼了一個詞庫工具:SimpleDict

簡單。純 PHP 實(shí)現(xiàn),不用安裝擴(kuò)展,也不依賴 xcache memcache redis 之類的緩存。

實(shí)用。支持大詞庫,我自己 40W 的詞庫跑起來輕輕松松。還支持回調(diào)式替換哦!

快速。使用了高大上的 trie 樹進(jìn)行匹配,查找耗時跟文本長度相關(guān),跟詞庫大小關(guān)系不大,速度杠杠的。詞典保存成二進(jìn)制文件,使用時只維持一個文件句柄,避免了傳統(tǒng) trie 樹內(nèi)存開銷巨大的弊端。

歡迎有需要的朋友試用 :P

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/20798.html

相關(guān)文章

  • 詳細(xì)說明Python中信息清潔工具flashtext

      FlashText是GitHub上的另一個開源系統(tǒng)Python庫,如同以前提到的,他在獲得關(guān)鍵字和更換關(guān)鍵字每日任務(wù)上具有非常高的特性。本文詳細(xì)說明一下下flashtext的應(yīng)用,所需要的可以了解一下  在平時的些的較小規(guī)模的信息的過慮、清理環(huán)節(jié)中應(yīng)用比較多的是正則匹配,但隨著數(shù)據(jù)量級的擴(kuò)大,正則匹配也顯得有一些力不從心了?! ≌齽t匹配在這個10k的詞庫文件中檢索15k個關(guān)鍵字的時長大概是0....

    89542767 評論0 收藏0
  • VicWord 一個純php分詞

    摘要:安裝分詞說明含有種切分方法長度優(yōu)先切分。效果最好可自定義詞典,自己添加詞語到詞庫,詞庫支持文本格式和二級制格式二進(jìn)制格式詞典小,加載快含有個詞,歡迎大家補(bǔ)充詞語到,格式詞語詞性獲取方法百度搜索這個詞語結(jié)果數(shù)量,如果你有更好的方法歡迎補(bǔ)充。 安裝 composer require lizhichao/word github: https://github.com/lizhichao/.....

    yangrd 評論0 收藏0
  • Trie樹 php 實(shí)現(xiàn)敏感詞過濾

    摘要:在樹中,每個節(jié)點(diǎn)表示一個狀態(tài),每條邊表示一個字符,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)經(jīng)過的邊即表示一個詞條。查找一個詞條最多耗費(fèi)的時間只受詞條長度影響,因此的查找性能是很高的,跟哈希算法的性能相當(dāng)。 Last-Modified: 2019年5月10日15:25:35 參考文章 c++ 使用map實(shí)現(xiàn)Trie樹 關(guān)鍵詞過濾擴(kuò)展,用于檢查一段文本中是否出現(xiàn)敏感詞,基于Double-Array Trie...

    王笑朝 評論0 收藏0
  • 推薦兩個實(shí)用技術(shù)

    摘要:今天這篇文章給大家推薦兩個實(shí)用的技術(shù)。比如關(guān)鍵詞過濾,我們經(jīng)常用的方案是自己維護(hù)一個敏感關(guān)鍵詞庫,然后對用戶提交上來的數(shù)據(jù)進(jìn)行分析。 今天這篇文章給大家推薦兩個實(shí)用的技術(shù)。 極速智能的反垃圾云服務(wù) - 網(wǎng)易易盾 基于二進(jìn)制高效的對象序列化類庫 - MessagePack 極速智能的反垃圾云服務(wù)。 首先解釋一個互聯(lián)網(wǎng)術(shù)語 - UGC。 UGC 全稱 User Generated Co...

    gself 評論0 收藏0
  • 詳細(xì)說明Python中信息清潔工具flashtext

      FlashText是GitHub上的另一個開源系統(tǒng)Python庫,如同以前提到的,他在獲得關(guān)鍵字和更換關(guān)鍵字每日任務(wù)上具有非常高的特性。本文詳細(xì)說明一下下flashtext的應(yīng)用,所需要的可以了解一下  在平時的些的較小規(guī)模的信息的過慮、清理環(huán)節(jié)中應(yīng)用最多的是正則匹配,但隨著數(shù)據(jù)量級的擴(kuò)大,正則匹配也顯得有一些力不從心了?! ≌齽t匹配在這個10k的詞典中查尋15k個關(guān)鍵字的時長大概是0.165...

    89542767 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<