摘要:課程的第單元中嵩天老師給出的中國(guó)大學(xué)排名爬蟲(chóng)優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問(wèn)題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開(kāi)心。
本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。
課程的第6單元中嵩天老師給出的“中國(guó)大學(xué)排名爬蟲(chóng)”優(yōu)化代碼如果把url中的2016改為2017就會(huì)出錯(cuò),原因:2016年各校排名數(shù)字的html格式為
import requests, bs4, re from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find("tbody").children: if isinstance(tr, bs4.element.Tag): yield tr #用到了生成器 def peidui(ulist, html): xlt = re.findall(r"d{1,4}? ",html) #用到了最小匹配 for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環(huán)2個(gè)變量用到了zip tds = tr("td") ulist.append([i.replace(" ",""), tds[1].string, tds[3].string]) def printUnivList(ulist, num): tplt = "{0:^10} {1:{3}^10} {2:^10}" print(tplt.format("排名","學(xué)校名稱(chēng)","總分",chr(12288))) for i in range(num): u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288))) def main(): uinfo = [] url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html" html = getHTMLText(url) peidui(uinfo, html) printUnivList(uinfo, 20) main() 運(yùn)行結(jié)果如下:
排名來(lái)自最好大學(xué)網(wǎng),只是作為爬蟲(chóng)練習(xí)使用,覺(jué)得排名不合適的網(wǎng)友勿噴。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/41127.html
相關(guān)文章
2017中國(guó)大學(xué)排名爬蟲(chóng)代碼修改
摘要:課程的第單元中嵩天老師給出的中國(guó)大學(xué)排名爬蟲(chóng)優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問(wèn)題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開(kāi)心。 本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。 課程的第6單元中嵩天老師給出的中國(guó)大學(xué)排名爬蟲(chóng)優(yōu)化代碼如果把url中的2...
Java爬蟲(chóng)之爬取中國(guó)高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲(chóng)爬取中國(guó)高校排名前名并寫(xiě)入中,我們利用來(lái)寫(xiě)爬蟲(chóng),將中的大學(xué)排名表格爬取出來(lái),并存入到中。本次分享將用的來(lái)實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫(kù)中。 介紹 ??在博客:Python爬蟲(chóng)——爬取中國(guó)高校排名前100名并寫(xiě)入MySQL中,我們利用Python來(lái)寫(xiě)爬蟲(chóng),將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來(lái),并存入到My...
Java爬蟲(chóng)之爬取中國(guó)高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲(chóng)爬取中國(guó)高校排名前名并寫(xiě)入中,我們利用來(lái)寫(xiě)爬蟲(chóng),將中的大學(xué)排名表格爬取出來(lái),并存入到中。本次分享將用的來(lái)實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫(kù)中。 介紹 ??在博客:Python爬蟲(chóng)——爬取中國(guó)高校排名前100名并寫(xiě)入MySQL中,我們利用Python來(lái)寫(xiě)爬蟲(chóng),將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來(lái),并存入到My...
中國(guó)公有云廠(chǎng)商2018年收入利潤(rùn)綜合排名詳細(xì)解讀
摘要:可見(jiàn),實(shí)際公布的中國(guó)公有云供應(yīng)商年收入利潤(rùn)排名榜單是按照綜合業(yè)務(wù)收入來(lái)計(jì)算,并非只是純粹的公有云業(yè)務(wù)。數(shù)據(jù)顯示,年至年中國(guó)公有云市場(chǎng)年均復(fù)合增長(zhǎng)率將達(dá)。這些中國(guó)公有云廠(chǎng)商名單,據(jù)阿明不完全統(tǒng)計(jì),總計(jì)為家。他們說(shuō):看過(guò)排名更懂云了……做這個(gè)排名之前,首先需要說(shuō)明一下這次估算和統(tǒng)計(jì)的公有云供應(yīng)商的業(yè)務(wù)范圍,包括了這些云供應(yīng)商的公有云、CDN、IDC、私有云、混合云、與云相關(guān)的集成項(xiàng)目,共計(jì)六項(xiàng)主...
發(fā)表評(píng)論
0條評(píng)論
![]()
figofuture
男|高級(jí)講師
TA的文章
閱讀更多
國(guó)內(nèi)云主機(jī)為什么那么貴?主要從4個(gè)方面來(lái)決定!
閱讀 2669·2021-11-22 13:53
寶塔面板搭建uptime-kuma – 自建一個(gè)TCP/HTTP網(wǎng)站監(jiān)控程序
閱讀 4226·2021-09-28 09:47
商城用什么主機(jī)-買(mǎi)什么游戲主機(jī)好?
閱讀 956·2021-09-22 15:33
UCloud快杰云主機(jī) 提升糖豆App運(yùn)營(yíng)與質(zhì)量實(shí)戰(zhàn)
閱讀 923·2020-12-03 17:17
CSS結(jié)構(gòu)與布局
閱讀 3378·2019-08-30 13:13
前端每日實(shí)戰(zhàn):90# 視頻演示如何用 CSS 和 D3 創(chuàng)作一個(gè)無(wú)盡的六邊形空間
閱讀 2190·2019-08-29 16:09
VUE,關(guān)于導(dǎo)航列表樣式切換(VUE Router:router-link-active)
閱讀 1247·2019-08-29 12:24
CSS實(shí)現(xiàn)元素水平居中
閱讀 2521·2019-08-28 18:14
閱讀需要支付1元查看