摘要:本節(jié)是通過(guò)函數(shù),查看值包含了哪些字符串,有點(diǎn)像搜索關(guān)鍵詞主要的函數(shù)是長(zhǎng)度包含字符書(shū)中用到的是通過(guò)查找關(guān)鍵詞,查看包含這些原料的菜譜有哪些。
本節(jié)是通過(guò)函數(shù),查看值包含了哪些字符串,有點(diǎn)像搜索關(guān)鍵詞
主要的函數(shù)是:
str.*()
str.len() 長(zhǎng)度
str.contains() 包含**字符
書(shū)中用到的是通過(guò)查找關(guān)鍵詞,查看包含這些原料的菜譜有哪些。 結(jié)合現(xiàn)在的,我覺(jué)得可以在處理推廣數(shù)據(jù)時(shí),通過(guò)設(shè)置好的參數(shù)來(lái)分析url中的用戶來(lái)源。
查看了word列的字符串長(zhǎng)度,平均搜索詞的長(zhǎng)度為8.8,75%是搜索詞在10個(gè)以內(nèi),最長(zhǎng)的有95個(gè)字符
df.word.str.len().describe() Out: count 2324.000000 mean 8.767642 std 4.695302 min 0.000000 25% 6.000000 50% 8.000000 75% 10.000000 max 95.000000 Name: word, dtype: float64
查看字符大于50個(gè)的數(shù)據(jù),執(zhí)行代碼后只有2條數(shù)據(jù)。
df[df.word.str.len() > 50] # 如果想查看字符串長(zhǎng)度大于30的數(shù)據(jù)有多少條,可以用 df[df.word.str.len() > 30].count() Out: date 15 id 15 word 15 rank1 15 number1 15 url 15 dtype: int64-- 查找是否包含某些字符
str.contains
#word列包含‘家’字的數(shù)據(jù)是什么 df[df.word.str.contains("家")]
還可以用input()的方法,來(lái)查找輸入的字符是否在word列中
keyw = input() df[df.url.str.contains(keyw)
就這樣,下節(jié)學(xué)習(xí)時(shí)間格式的處理,然后第3章就結(jié)束了,拜拜。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/44995.html
摘要:貢獻(xiàn)者飛龍版本最近總是有人問(wèn)我,把這些資料看完一遍要用多長(zhǎng)時(shí)間,如果你一本書(shū)一本書(shū)看的話,的確要用很長(zhǎng)時(shí)間。為了方便大家,我就把每本書(shū)的章節(jié)拆開(kāi),再按照知識(shí)點(diǎn)合并,手動(dòng)整理了這個(gè)知識(shí)樹(shù)。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...
摘要:時(shí)間序列,日期格式處理原以為本章是講怎么用處理時(shí)間格式,比如提取年月之類(lèi)的。新增一列日期,不要時(shí)分新增兩列年,月,以便后續(xù)分析。這個(gè)方法太復(fù)雜,而且處理時(shí)間可能會(huì)更長(zhǎng),看下面的簡(jiǎn)單方法新增月份年。 時(shí)間序列,日期格式處理 原以為本章是講怎么用python處理時(shí)間格式,比如提取年月之類(lèi)的。 但本節(jié)寫(xiě)的是時(shí)間格式已經(jīng)工整后的事,暫時(shí)不是我想學(xué)的,所以跳過(guò),就沒(méi)有寫(xiě)公式了。 下面的函數(shù)時(shí)之前...
摘要:由設(shè)計(jì),作為編程語(yǔ)言的繼承者,于年首次發(fā)布。表達(dá)式表達(dá)式是編程語(yǔ)言中的語(yǔ)法實(shí)體,可以對(duì)其進(jìn)行評(píng)估以確定其值。它是編程語(yǔ)言解釋和計(jì)算以產(chǎn)生值的常量變量函數(shù)和運(yùn)算符的組合。它在年年年和年被評(píng)為年度編程語(yǔ)言,是唯一四次獲得該獎(jiǎng)項(xiàng)的語(yǔ)言。 ...
摘要:主成分分析就是降維,通過(guò)線性組合,把多個(gè)原始變量合并成若干個(gè)主成分,這樣每個(gè)主成分都變成原始變量的線性組合。相關(guān)系數(shù)系數(shù)為為為。從結(jié)果看,這個(gè)數(shù)據(jù)可能不太適合用來(lái)分析,因?yàn)榻档骄S后的代筆性不足。 這兩天用學(xué)了主成分分析,用的是PCA。主成分分析就是降維,通過(guò)線性組合,把多個(gè)原始變量合并成若干個(gè)主成分,這樣每個(gè)主成分都變成原始變量的線性組合。所以你想看具體哪個(gè)特征對(duì)結(jié)果的影響大,通過(guò)PC...
摘要:一周沒(méi)寫(xiě)文了,之前干什么去了呢本周前半部分卡在畫(huà)圖了,然后的時(shí)間在處理數(shù)據(jù),處理數(shù)據(jù)是我目前在畫(huà)圖和機(jī)器學(xué)習(xí)上一個(gè)重大的障礙,處理各種報(bào)錯(cuò)各種不適合,等我學(xué)會(huì)了和你再來(lái)堵我呀 一周沒(méi)寫(xiě)文了,之前干什么去了呢?本周前半部分卡在畫(huà)圖了,然后1/3的時(shí)間在處理數(shù)據(jù),處理數(shù)據(jù)是我目前在畫(huà)圖和機(jī)器學(xué)習(xí)上一個(gè)重大的障礙,python處理各種報(bào)錯(cuò)各種不適合,等我學(xué)會(huì)了kettle和spark你再來(lái)堵...
閱讀 3044·2023-04-26 02:29
閱讀 655·2019-08-30 15:54
閱讀 1748·2019-08-29 13:13
閱讀 672·2019-08-28 17:51
閱讀 2797·2019-08-26 13:58
閱讀 1597·2019-08-26 13:27
閱讀 2887·2019-08-26 11:39
閱讀 3512·2019-08-26 10:46