成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

數(shù)據(jù)科學(xué) 第 3 章 11 字符串處理

hlcfan / 1926人閱讀

摘要:本節(jié)是通過(guò)函數(shù),查看值包含了哪些字符串,有點(diǎn)像搜索關(guān)鍵詞主要的函數(shù)是長(zhǎng)度包含字符書(shū)中用到的是通過(guò)查找關(guān)鍵詞,查看包含這些原料的菜譜有哪些。

本節(jié)是通過(guò)函數(shù),查看值包含了哪些字符串,有點(diǎn)像搜索關(guān)鍵詞
主要的函數(shù)是:
str.*()
str.len() 長(zhǎng)度
str.contains() 包含**字符

書(shū)中用到的是通過(guò)查找關(guān)鍵詞,查看包含這些原料的菜譜有哪些。 結(jié)合現(xiàn)在的,我覺(jué)得可以在處理推廣數(shù)據(jù)時(shí),通過(guò)設(shè)置好的參數(shù)來(lái)分析url中的用戶來(lái)源。

查看了word列的字符串長(zhǎng)度,平均搜索詞的長(zhǎng)度為8.8,75%是搜索詞在10個(gè)以內(nèi),最長(zhǎng)的有95個(gè)字符

df.word.str.len().describe()

Out:
count    2324.000000
mean        8.767642
std         4.695302
min         0.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        95.000000
Name: word, dtype: float64

查看字符大于50個(gè)的數(shù)據(jù),執(zhí)行代碼后只有2條數(shù)據(jù)。

df[df.word.str.len() > 50]

# 如果想查看字符串長(zhǎng)度大于30的數(shù)據(jù)有多少條,可以用
df[df.word.str.len() > 30].count()

Out:
date       15
id         15
word       15
rank1      15
number1    15
url        15
dtype: int64
-- 查找是否包含某些字符

str.contains

#word列包含‘家’字的數(shù)據(jù)是什么
df[df.word.str.contains("家")]

還可以用input()的方法,來(lái)查找輸入的字符是否在word列中

keyw = input()
df[df.url.str.contains(keyw)

就這樣,下節(jié)學(xué)習(xí)時(shí)間格式的處理,然后第3章就結(jié)束了,拜拜。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/44995.html

相關(guān)文章

  • ApacheCN 人工智能知識(shí)樹(shù) v1.0

    摘要:貢獻(xiàn)者飛龍版本最近總是有人問(wèn)我,把這些資料看完一遍要用多長(zhǎng)時(shí)間,如果你一本書(shū)一本書(shū)看的話,的確要用很長(zhǎng)時(shí)間。為了方便大家,我就把每本書(shū)的章節(jié)拆開(kāi),再按照知識(shí)點(diǎn)合并,手動(dòng)整理了這個(gè)知識(shí)樹(shù)。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...

    劉厚水 評(píng)論0 收藏0
  • 數(shù)據(jù)科學(xué) 3 12 處理時(shí)間序列,小時(shí)、分

    摘要:時(shí)間序列,日期格式處理原以為本章是講怎么用處理時(shí)間格式,比如提取年月之類(lèi)的。新增一列日期,不要時(shí)分新增兩列年,月,以便后續(xù)分析。這個(gè)方法太復(fù)雜,而且處理時(shí)間可能會(huì)更長(zhǎng),看下面的簡(jiǎn)單方法新增月份年。 時(shí)間序列,日期格式處理 原以為本章是講怎么用python處理時(shí)間格式,比如提取年月之類(lèi)的。 但本節(jié)寫(xiě)的是時(shí)間格式已經(jīng)工整后的事,暫時(shí)不是我想學(xué)的,所以跳過(guò),就沒(méi)有寫(xiě)公式了。 下面的函數(shù)時(shí)之前...

    Atom 評(píng)論0 收藏0
  • 什么是 Python 編程語(yǔ)言?

    摘要:由設(shè)計(jì),作為編程語(yǔ)言的繼承者,于年首次發(fā)布。表達(dá)式表達(dá)式是編程語(yǔ)言中的語(yǔ)法實(shí)體,可以對(duì)其進(jìn)行評(píng)估以確定其值。它是編程語(yǔ)言解釋和計(jì)算以產(chǎn)生值的常量變量函數(shù)和運(yùn)算符的組合。它在年年年和年被評(píng)為年度編程語(yǔ)言,是唯一四次獲得該獎(jiǎng)項(xiàng)的語(yǔ)言。 ...

    1treeS 評(píng)論0 收藏0
  • 數(shù)據(jù)科學(xué) 5 主成分分析(降維)、相關(guān)性

    摘要:主成分分析就是降維,通過(guò)線性組合,把多個(gè)原始變量合并成若干個(gè)主成分,這樣每個(gè)主成分都變成原始變量的線性組合。相關(guān)系數(shù)系數(shù)為為為。從結(jié)果看,這個(gè)數(shù)據(jù)可能不太適合用來(lái)分析,因?yàn)榻档骄S后的代筆性不足。 這兩天用學(xué)了主成分分析,用的是PCA。主成分分析就是降維,通過(guò)線性組合,把多個(gè)原始變量合并成若干個(gè)主成分,這樣每個(gè)主成分都變成原始變量的線性組合。所以你想看具體哪個(gè)特征對(duì)結(jié)果的影響大,通過(guò)PC...

    ixlei 評(píng)論0 收藏0
  • 數(shù)據(jù)科學(xué) 5 建模過(guò)程 與 決策樹(shù)模型

    摘要:一周沒(méi)寫(xiě)文了,之前干什么去了呢本周前半部分卡在畫(huà)圖了,然后的時(shí)間在處理數(shù)據(jù),處理數(shù)據(jù)是我目前在畫(huà)圖和機(jī)器學(xué)習(xí)上一個(gè)重大的障礙,處理各種報(bào)錯(cuò)各種不適合,等我學(xué)會(huì)了和你再來(lái)堵我呀 一周沒(méi)寫(xiě)文了,之前干什么去了呢?本周前半部分卡在畫(huà)圖了,然后1/3的時(shí)間在處理數(shù)據(jù),處理數(shù)據(jù)是我目前在畫(huà)圖和機(jī)器學(xué)習(xí)上一個(gè)重大的障礙,python處理各種報(bào)錯(cuò)各種不適合,等我學(xué)會(huì)了kettle和spark你再來(lái)堵...

    lowett 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

hlcfan

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<