摘要:至于為什么選取樸素貝葉斯,很大一個(gè)原因是因?yàn)闃闼刎惾~斯在垃圾郵件分類上有不錯(cuò)的效果,而確定一個(gè)句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。
前言
前段時(shí)間更新了一系列基礎(chǔ)的機(jī)器學(xué)習(xí)算法,感覺有些無味,而且恰好那時(shí)買了了國內(nèi)某公司的云服務(wù)器,就打算部署一套文本處理的WEB API,順別應(yīng)用一下之前學(xué)習(xí)到的機(jī)器學(xué)習(xí)算法。(文末放出地址)
本文不會(huì)涉及過于復(fù)雜的數(shù)學(xué)原理,主要講述如何提取特征與調(diào)用模型。
實(shí)現(xiàn)了的api分詞
訪問/cut?sentence=&method=,其中sentence參數(shù)指明需要分詞的句子,method參數(shù)指明分詞的方式。
統(tǒng)計(jì)詞頻
訪問/count?sentence=&=method=,其中的參數(shù)說明和分詞的api一致。
情感分析
訪問/count?sentence=,因?yàn)槟壳笆轻槍渥拥?,因?b>sentence的范圍限制了在1~200詞之間。
本文重點(diǎn)講述情感分析的實(shí)現(xiàn)。
情感分析的實(shí)現(xiàn)情感分析的應(yīng)用是多種多樣的,往大了說,可以用于國家對某個(gè)熱點(diǎn)進(jìn)行輿情監(jiān)控,選舉的選情分析,電商對產(chǎn)品的售后意向調(diào)查,往小了說還可以寫一個(gè)腳本對你女神的微博進(jìn)行關(guān)心,在女神不開心的時(shí)候及時(shí)送上關(guān)心。
至于情感分析的實(shí)現(xiàn),在學(xué)術(shù)論文上均有提及,大致過程都可以分為提取情感極性詞,將語句轉(zhuǎn)化為向量,扔進(jìn)你訓(xùn)練好的模型里
在這里我們針對實(shí)際情況做出一定的修改,提取情感極性詞,必然是需要詞典來參考的,雖然各大語言機(jī)構(gòu)都有公開的詞典,,但并不建議使用這些詞典。其中一個(gè)原因是因?yàn)檫@些公開的詞典太過書面化,和“禮貌”,不太接近日常生活。因此這這里我采用的是自定義詞典,另外一點(diǎn)是,在提取關(guān)鍵詞部分不僅僅是提取情感相關(guān)的詞語,同時(shí)也使用其他日常用語,比如草泥馬,雖然不像開心,傷心這樣的情感極性詞,但草泥馬顯然具有明確的情感偏向。
值得說明的是,我們既然在提取特征詞的時(shí)候考慮到平常的詞語,同樣也就意味這一些亂七八糟的詞語會(huì)混進(jìn)來,所以我們在提取完特征詞后,同時(shí)計(jì)算它們的詞頻,只取頻率排名的前20%,(當(dāng)然這個(gè)數(shù)字可以根據(jù)自己需要調(diào)整)。
挑選的出來的特征詞就構(gòu)成了[word1,word2,word3……],同時(shí)檢測訓(xùn)練樣本,若樣本中出現(xiàn)了特征詞,則該樣本的特征向量對應(yīng)位置置1,否則為0。
構(gòu)成特征向量后,我選取的算法是樸素貝葉斯,關(guān)于其原理,可以查看我支持的專欄機(jī)器學(xué)習(xí)從入門到放棄之樸素貝葉斯。至于為什么選取樸素貝葉斯,很大一個(gè)原因是因?yàn)?b>樸素貝葉斯在垃圾郵件分類上有不錯(cuò)的效果,而確定一個(gè)句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。
在sklearn中,只要添加如下代碼即可。
from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() gnb = gnb.fit(feature, label) result = gnb.predice(test)
上述api中涉及的分詞操作均是使用 結(jié)巴分詞 完成。
測試效果下面測試用例又黃又暴力,未成年觀眾在家長的陪同下觀看。
開源代碼WEB API測試頁面dudulu
目前只有情感分析的api的測試頁面
后話dudulu
不得不說使用了必應(yīng)的背景圖來做自己網(wǎng)站的背景圖效果相當(dāng)不錯(cuò)。
希望大家多多調(diào)戲(目前語料只支持中文),后端的日志會(huì)記錄下測試記錄(算是收集數(shù)據(jù)),我會(huì)周期性上去更新模型,效果理論上會(huì)越變越好。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/38185.html
摘要:貢獻(xiàn)者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時(shí)間,如果你一本書一本書看的話,的確要用很長時(shí)間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識點(diǎn)合并,手動(dòng)整理了這個(gè)知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...
摘要:基于大量的數(shù)據(jù)統(tǒng)計(jì),網(wǎng)球是一種很好的預(yù)測類體育項(xiàng)目。數(shù)據(jù)科學(xué)家根據(jù)歷史數(shù)據(jù)和玩家信息來構(gòu)建預(yù)測模型,并將結(jié)果與博彩公司的評估進(jìn)行比較。目標(biāo)是找出機(jī)器學(xué)習(xí)模型與博彩公司評估之間的差距,從而有機(jī)會(huì)獲勝。這是一個(gè)很好的實(shí)際數(shù)據(jù)科學(xué)項(xiàng)目。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/56c......
閱讀 3058·2021-09-27 13:35
閱讀 682·2021-09-23 11:22
閱讀 2964·2019-08-30 15:54
閱讀 1687·2019-08-29 16:27
閱讀 2543·2019-08-29 15:05
閱讀 2421·2019-08-23 18:11
閱讀 3590·2019-08-23 16:32
閱讀 3001·2019-08-23 14:56