成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

TF-IDF、詞袋模型與特征工程

xialong / 3677人閱讀

摘要:如標(biāo)題,與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。我們再回過頭來看看的缺陷,其中的第二點和第三點以相反角度來看都有助于我們對詞袋模型中特征向量的優(yōu)化這個需要各位好好理解一下。

如標(biāo)題,TF-IDF與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。

一. 詞集與詞袋模型

這個算法的主要作用也就是對文本做單詞切分,有點從一篇文章里提取關(guān)鍵詞這種意思,旨在用向量來描述文本的主要內(nèi)容,其中包含了詞集與詞袋兩種。

詞集模型:單詞構(gòu)成的集合,集合中每個元素只有一個,即詞集中的每個單詞都只有一個。

詞袋模型:如果一個單詞在文檔中出現(xiàn)不止一次,就統(tǒng)計其出現(xiàn)的次數(shù),詞袋在詞集的基礎(chǔ)上加入了頻率這個維度,使統(tǒng)計擁有更好的效果,通常我們在應(yīng)用中都選用詞袋模型。

python代碼示例

使用xss攻擊語句來測試詞袋模型的效果

from sklearn.feature_extraction.text import CountVectorizer
#詞袋模型,這里的min_df取值為3,即該向量在整個payload中至少出現(xiàn)了三次
vec=CountVectorizer(min_df=3,ngram_range=(1,1))
content=[
    "alert(1)X",
    "">