NLP 開(kāi)源形近字算法補(bǔ)完計(jì)劃（完結(jié)篇）

番茄西紅柿發(fā)布于2021-11-26 11:11 / 3293人閱讀

摘要：本文將作為漢字相似度的完結(jié)篇，為該系列畫(huà)上一個(gè)句號(hào)。起中文形近字相似度計(jì)算思路承中文形近字相似度算法實(shí)現(xiàn)，為漢字盡一點(diǎn)綿薄之力轉(zhuǎn)當(dāng)代中國(guó)最貴的漢字是什么不足之處之所以有本篇，是因?yàn)樯弦淮蔚乃惴▽?shí)現(xiàn)存在一些不足。

前言

所有的故事都有開(kāi)始，也終將結(jié)束。

本文將作為 NLP 漢字相似度的完結(jié)篇，為該系列畫(huà)上一個(gè)句號(hào)。

起-NLP 中文形近字相似度計(jì)算思路

承-中文形近字相似度算法實(shí)現(xiàn)，為漢字 NLP 盡一點(diǎn)綿薄之力

轉(zhuǎn)-當(dāng)代中國(guó)最貴的漢字是什么？

不足之處

之所以有本篇，是因?yàn)樯弦淮蔚乃惴▽?shí)現(xiàn)存在一些不足。

巴別塔

《圣經(jīng)》中有關(guān)于巴別塔建造，最終人們因?yàn)檎Z(yǔ)言問(wèn)題而停工的故事?。

創(chuàng)11:6　“看哪！他們成為一樣的人民，都是一樣的言語(yǔ)，如今既作起這事來(lái)，以后他們所要作的事，就沒(méi)有不成就的了。創(chuàng)11:7　我們下去，在那里變亂他們的口音，使他們的言語(yǔ)彼此不通。”創(chuàng)11:8　于是，耶和華使他們從那里分散在全地上；他們就停工不造那城了。

為了避免語(yǔ)言問(wèn)題，我一開(kāi)始就實(shí)現(xiàn)了一個(gè) exe4j 打包的對(duì)比程序，自己跑的很順暢。

小伙伴一跑，運(yùn)行失敗。各種環(huán)境配置一頓操作，最后還是報(bào)錯(cuò)。

于是，我寫了一個(gè) python 簡(jiǎn)易版本，便于做 NLP 研究的小伙伴們學(xué)習(xí)。

https://github.com/houbb/nlp-hanzi-similar/releases/tag/pythn

java 是一種語(yǔ)言，python 是一種語(yǔ)言。

編程語(yǔ)言，讓人和機(jī)器之間可以溝通，卻讓人與人之間產(chǎn)生了隔閡。

拆字

在當(dāng)代中國(guó)最貴的漢字是什么？一文中，我們首次說(shuō)明了漢字的拆合。

漢字的拆分實(shí)現(xiàn)，核心目的之一就是為了完善漢字的相似度比較。

通過(guò)對(duì)比漢字的拆分部分，然后獲取拆字的相似度，提高對(duì)比的準(zhǔn)確性。

拆字相似度

簡(jiǎn)單的需求

為了便于小伙伴們理解，我們用產(chǎn)品經(jīng)理的思維和大家介紹一下實(shí)現(xiàn)方式。

我的需求比較簡(jiǎn)單。你看，【明】可以拆分【日】【月】，【冐】也可以拆分為【日】【月】。對(duì)比一下，結(jié)果是顯然的。怎么實(shí)現(xiàn)我不管，明天上線吧。

小伙伴們，應(yīng)該已經(jīng)知道怎么實(shí)現(xiàn)了吧？

使用體驗(yàn)

誠(chéng)如產(chǎn)品所言，這個(gè)需求已經(jīng)實(shí)現(xiàn)。

maven 引入

    com.github.houbb    nlp-hanzi-similar    1.2.0

使用

double rate1 = HanziSimilarHelper.similar(末, 未);

對(duì)應(yīng)的結(jié)果為：0.9696969696969697

更多使用細(xì)節(jié)，參考開(kāi)源地址：

https://github.com/houbb/nlp-hanzi-similar

寫在完結(jié)前

涉及的項(xiàng)目

漢字的相似度計(jì)算到這里算是告一段落。

主要涉及的資料及項(xiàng)目有：

當(dāng)然，還可以結(jié)果 opencc4j 進(jìn)行繁簡(jiǎn)體的處理，此處不再延伸。

之后的計(jì)劃

NLP 的領(lǐng)域還有很多東西需要大家攻克，畢竟中文 NLP 才剛剛開(kāi)始。

技術(shù)尚未成功，同志仍需努力。

據(jù)說(shuō)最近鵝城的某位黃老爺惹得大家怨聲載道。

很多小伙伴說(shuō)，如果有一款軟件可以實(shí)現(xiàn)【月丷夫馬言卂彳山兀攴人言】的溝通功能，那么我肯定會(huì)用。

所謂說(shuō)者無(wú)心，聽(tīng)者有意。

寫一個(gè)通訊軟件，主要是為了鞏固下 netty 的學(xué)習(xí)，其他的都不重要。

雖然知道就算有，大家肯定也不太會(huì)改變，但是老馬還是準(zhǔn)備試試。

java 實(shí)現(xiàn)思路

警告，如果你頭發(fā)已經(jīng)所剩無(wú)幾，或者對(duì)實(shí)現(xiàn)并不感興趣。

那么就可以收藏+點(diǎn)贊+評(píng)論【不明覺(jué)厲】，然后離開(kāi)了。

下面是枯燥的代碼實(shí)現(xiàn)環(huán)節(jié)。

程序員的思維

下面是程序員的思維。

首先要解決幾個(gè)問(wèn)題：

（1）漢字的拆分實(shí)現(xiàn)

這個(gè)直接復(fù)用已經(jīng)實(shí)現(xiàn)的漢字拆分實(shí)現(xiàn)。

List stringList = ChaiziHelper.chai(charWord.charAt(0));

相同的一個(gè)漢字可以有多種拆分方式，簡(jiǎn)單起見(jiàn)，我們默認(rèn)取第一個(gè)。

（2）相似的比較

假設(shè)我們對(duì)比 A B 兩個(gè)漢字，可以拆分為如下的子集。

A = {A1, A2, ..., Am}

B = {B1, B2, ..., Bm}

/** * 獲取拆分后對(duì)應(yīng)的拆分字符 * @param charWord 字符 * @return 結(jié)果 */private char[] getSplitChars(String charWord) {    List stringList = ChaiziHelper.chai(charWord.charAt(0));    // 這里應(yīng)該選擇哪一個(gè)是有講究的。此處為了簡(jiǎn)單，默認(rèn)選擇第一個(gè)。    String string = stringList.get(0);    return string.toCharArray();}

拆分后的子集對(duì)比有多種實(shí)現(xiàn)方式，簡(jiǎn)單起見(jiàn)，我們直接遍歷元素，判斷另一個(gè)子集是否存在。

當(dāng)然，遍歷的時(shí)候要以拆分?jǐn)?shù)量較少的的為基準(zhǔn)。

int minLen = Math.min(charsOne.length, charsTwo.length);// 比較double totalScore = 0.0;for(int i = 0; i <  minLen; i++) {    char iChar = charsOne[i];    String textChar = iChar+"";    if(ArrayPrimitiveUtil.contains(charsTwo, iChar)) {        //累加分?jǐn)?shù)    }}

（3）拆分子集的權(quán)重

比如 一 月 兩個(gè)漢字都是子集，但是因?yàn)楣P畫(huà)數(shù)不同，權(quán)重也不同。

我們用一個(gè)子集的筆畫(huà)數(shù)占整體漢字的筆畫(huà)數(shù)計(jì)算權(quán)重。

 int textNumber = getNumber(textChar, similarContext);double scoreOne = textNumber*1.0 / numberOne * 1.0;double scoreTwo = textNumber*1.0 / numberTwo * 1.0;totalScore += (scoreOne + scoreTwo) / 2.0;

ps: 這里的除以 2,是為了歸一化。保證最后的結(jié)果在 0-1 之間。

（4）筆畫(huà)數(shù)

獲取筆畫(huà)數(shù)的方式，我們可以直接復(fù)用以前的方法。

如果沒(méi)有匹配的，默認(rèn)筆畫(huà)數(shù)為 1。

private int getNumber(String text, IHanziSimilarContext similarContext) {    Map map = similarContext.bihuashuData().dataMap();    Integer number = map.get(text);    if(number == null) {        return 1;    }    return number;}

java 完整實(shí)現(xiàn)

我們把所有的碎片拼接起來(lái)，就得到一個(gè)完整的實(shí)現(xiàn)。

/** * 拆字 * * @author 老馬嘯西風(fēng) * @since 1.0.0 */public class ChaiziSimilar implements IHanziSimilar {    @Override    public double similar(IHanziSimilarContext similarContext) {        String hanziOne = similarContext.charOne();        String hanziTwo = similarContext.charTwo();        int numberOne = getNumber(hanziOne, similarContext);        int numberTwo = getNumber(hanziTwo, similarContext);        // 拆分        char[] charsOne = getSplitChars(hanziOne);        char[] charsTwo = getSplitChars(hanziTwo);        int minLen = Math.min(charsOne.length, charsTwo.length);        // 比較        double totalScore = 0.0;        for(int i = 0; i <  minLen; i++) {            char iChar = charsOne[i];            String textChar = iChar+"";            if(ArrayPrimitiveUtil.contains(charsTwo, iChar)) {                int textNumber = getNumber(textChar, similarContext);                double scoreOne = textNumber*1.0 / numberOne * 1.0;                double scoreTwo = textNumber*1.0 / numberTwo * 1.0;                totalScore += (scoreOne + scoreTwo) / 2.0;            }        }        return totalScore * similarContext.chaiziRate();    }    /**     * 獲取拆分后對(duì)應(yīng)的拆分字符     * @param charWord 字符     * @return 結(jié)果     */    private char[] getSplitChars(String charWord) {        List stringList = ChaiziHelper.chai(charWord.charAt(0));        // 這里應(yīng)該選擇哪一個(gè)是有講究的。此處為了簡(jiǎn)單，默認(rèn)選擇第一個(gè)。        String string = stringList.get(0);        return string.toCharArray();    }    /**     * 獲取筆畫(huà)數(shù)     * @param text 文本     * @param similarContext 上下文     * @return 結(jié)果     */    private int getNumber(String text, IHanziSimilarContext similarContext) {        Map map = similarContext.bihuashuData().dataMap();        Integer number = map.get(text);        if(number == null) {            return 1;        }        return number;    }}

小結(jié)

本文引入了漢字拆字，進(jìn)一步豐富了相似度的實(shí)現(xiàn)。

當(dāng)然，實(shí)現(xiàn)本身依然有很多值得提升的地方，比如拆分后的選擇，是否可以遞歸拆分等，這個(gè)還是留給后人研究吧。

我是老馬，期待與你的下次重逢。

云服務(wù)器 GPU云服務(wù)器完結(jié)篇 webrtc nlp算法開(kāi)源語(yǔ)音識(shí)別算法圖像識(shí)別算法開(kāi)源

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/125244.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

番茄西紅柿

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensor

閱讀 943·2023-04-25 19:43
Windows 下安裝 XGBoost

閱讀 4239·2021-11-30 14:52
Hadoop 2.6.0 啟動(dòng)問(wèn)題 lib/native/libhadoop.so which mi

閱讀 4024·2021-11-30 14:52
VmShell：黑五美國(guó)VPS,免費(fèi)先開(kāi)通測(cè)試,滿意后付款!支持tiktok美區(qū)

閱讀 4132·2021-11-29 11:00
百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

閱讀 4023·2021-11-29 11:00
Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

閱讀 4154·2021-11-29 11:00
301重定向怎么做?301重定向設(shè)置方法有幾種

閱讀 3871·2021-11-29 11:00
wordpress網(wǎng)站重定向次數(shù)過(guò)多的解決方法

閱讀 6761·2021-11-29 11:00

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

NLP 開(kāi)源形近字算法補(bǔ)完計(jì)劃（完結(jié)篇）

前言

不足之處

巴別塔

拆字

拆字相似度

簡(jiǎn)單的需求

使用體驗(yàn)

maven 引入

使用

寫在完結(jié)前

涉及的項(xiàng)目

之后的計(jì)劃

java 實(shí)現(xiàn)思路

程序員的思維

java 完整實(shí)現(xiàn)

小結(jié)

相關(guān)文章

如何通過(guò)人工智能“避開(kāi)”內(nèi)容安全的“坑”？

分享AI有道干貨 | 126 篇 AI 原創(chuàng)文章精選（ML、DL、資源、教程）

**敏捷AI｜NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐「構(gòu)建用戶畫(huà)像篇」**

重磅 | 完備的 AI 學(xué)習(xí)路線，最詳細(xì)的資源整理！

**PHP函數(shù)補(bǔ)完計(jì)劃：數(shù)組排序 array_reduce（）**

發(fā)表評(píng)論

0條評(píng)論

番茄西紅柿

男|高級(jí)講師

TA的文章

tensor

Windows 下安裝 XGBoost

Hadoop 2.6.0 啟動(dòng)問(wèn)題 lib/native/libhadoop.so which mi

VmShell：黑五美國(guó)VPS,免費(fèi)先開(kāi)通測(cè)試,滿意后付款!支持tiktok美區(qū)

百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

301重定向怎么做?301重定向設(shè)置方法有幾種

wordpress網(wǎng)站重定向次數(shù)過(guò)多的解決方法

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

NLP 開(kāi)源形近字算法補(bǔ)完計(jì)劃（完結(jié)篇）

前言

不足之處

巴別塔

拆字

拆字相似度

簡(jiǎn)單的需求

使用體驗(yàn)

maven 引入

使用

寫在完結(jié)前

涉及的項(xiàng)目

之后的計(jì)劃

java 實(shí)現(xiàn)思路

程序員的思維

java 完整實(shí)現(xiàn)

小結(jié)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！