成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

機(jī)器學(xué)習(xí)實(shí)戰(zhàn),使用樸素貝葉斯來做情感分析

levinit / 1619人閱讀

摘要:至于為什么選取樸素貝葉斯,很大一個(gè)原因是因?yàn)闃闼刎惾~斯在垃圾郵件分類上有不錯(cuò)的效果,而確定一個(gè)句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。

前言

前段時(shí)間更新了一系列基礎(chǔ)的機(jī)器學(xué)習(xí)算法,感覺有些無味,而且恰好那時(shí)買了了國內(nèi)某公司的云服務(wù)器,就打算部署一套文本處理的WEB API,順別應(yīng)用一下之前學(xué)習(xí)到的機(jī)器學(xué)習(xí)算法。(文末放出地址)

本文不會(huì)涉及過于復(fù)雜的數(shù)學(xué)原理,主要講述如何提取特征與調(diào)用模型。

實(shí)現(xiàn)了的api

分詞
訪問/cut?sentence=&method=,其中sentence參數(shù)指明需要分詞的句子,method參數(shù)指明分詞的方式。

統(tǒng)計(jì)詞頻
訪問/count?sentence=&=method=,其中的參數(shù)說明和分詞的api一致。

情感分析
訪問/count?sentence=,因?yàn)槟壳笆轻槍渥拥?,因?b>sentence的范圍限制了在1~200詞之間。

本文重點(diǎn)講述情感分析的實(shí)現(xiàn)。

情感分析的實(shí)現(xiàn)

情感分析的應(yīng)用是多種多樣的,往大了說,可以用于國家對某個(gè)熱點(diǎn)進(jìn)行輿情監(jiān)控,選舉的選情分析,電商對產(chǎn)品的售后意向調(diào)查,往小了說還可以寫一個(gè)腳本對你女神的微博進(jìn)行關(guān)心,在女神不開心的時(shí)候及時(shí)送上關(guān)心。

至于情感分析的實(shí)現(xiàn),在學(xué)術(shù)論文上均有提及,大致過程都可以分為提取情感極性詞,將語句轉(zhuǎn)化為向量,扔進(jìn)你訓(xùn)練好的模型里

在這里我們針對實(shí)際情況做出一定的修改,提取情感極性詞,必然是需要詞典來參考的,雖然各大語言機(jī)構(gòu)都有公開的詞典,,但并不建議使用這些詞典。其中一個(gè)原因是因?yàn)檫@些公開的詞典太過書面化,和“禮貌”,不太接近日常生活。因此這這里我采用的是自定義詞典,另外一點(diǎn)是,在提取關(guān)鍵詞部分不僅僅是提取情感相關(guān)的詞語,同時(shí)也使用其他日常用語,比如草泥馬,雖然不像開心,傷心這樣的情感極性詞,但草泥馬顯然具有明確的情感偏向。

值得說明的是,我們既然在提取特征詞的時(shí)候考慮到平常的詞語,同樣也就意味這一些亂七八糟的詞語會(huì)混進(jìn)來,所以我們在提取完特征詞后,同時(shí)計(jì)算它們的詞頻,只取頻率排名的前20%,(當(dāng)然這個(gè)數(shù)字可以根據(jù)自己需要調(diào)整)。

挑選的出來的特征詞就構(gòu)成了[word1,word2,word3……],同時(shí)檢測訓(xùn)練樣本,若樣本中出現(xiàn)了特征詞,則該樣本的特征向量對應(yīng)位置置1,否則為0。

構(gòu)成特征向量后,我選取的算法是樸素貝葉斯,關(guān)于其原理,可以查看我支持的專欄機(jī)器學(xué)習(xí)從入門到放棄之樸素貝葉斯。至于為什么選取樸素貝葉斯,很大一個(gè)原因是因?yàn)?b>樸素貝葉斯在垃圾郵件分類上有不錯(cuò)的效果,而確定一個(gè)句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。

在sklearn中,只要添加如下代碼即可。

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb = gnb.fit(feature, label)
result = gnb.predice(test)

上述api中涉及的分詞操作均是使用 結(jié)巴分詞 完成。

測試效果

下面測試用例又黃又暴力,未成年觀眾在家長的陪同下觀看。

開源代碼

dudulu

WEB API測試頁面

目前只有情感分析的api的測試頁面

dudulu
不得不說使用了必應(yīng)的背景圖來做自己網(wǎng)站的背景圖效果相當(dāng)不錯(cuò)。

后話

希望大家多多調(diào)戲(目前語料只支持中文),后端的日志會(huì)記錄下測試記錄(算是收集數(shù)據(jù)),我會(huì)周期性上去更新模型,效果理論上會(huì)越變越好。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/38185.html

相關(guān)文章

  • ApacheCN 人工智能知識樹 v1.0

    摘要:貢獻(xiàn)者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時(shí)間,如果你一本書一本書看的話,的確要用很長時(shí)間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識點(diǎn)合并,手動(dòng)整理了這個(gè)知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...

    劉厚水 評論0 收藏0
  • 成為數(shù)據(jù)科學(xué)家的入門項(xiàng)目

    摘要:基于大量的數(shù)據(jù)統(tǒng)計(jì),網(wǎng)球是一種很好的預(yù)測類體育項(xiàng)目。數(shù)據(jù)科學(xué)家根據(jù)歷史數(shù)據(jù)和玩家信息來構(gòu)建預(yù)測模型,并將結(jié)果與博彩公司的評估進(jìn)行比較。目標(biāo)是找出機(jī)器學(xué)習(xí)模型與博彩公司評估之間的差距,從而有機(jī)會(huì)獲勝。這是一個(gè)很好的實(shí)際數(shù)據(jù)科學(xué)項(xiàng)目。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/56c......

    Julylovin 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<