摘要:簡(jiǎn)單的爬蟲工具下載博客,并轉(zhuǎn)成的形式為什么要寫這個(gè)工具主要是為了收集好的網(wǎng)上資源,每次看到一篇好的文章就像保存下來,但是保存網(wǎng)頁(yè)的可讀性太差了,如果轉(zhuǎn)換成的形式就很舒服。
簡(jiǎn)單的爬蟲工具
下載博客,并轉(zhuǎn)成Markdown的形式為什么要寫這個(gè)工具
主要是為了收集好的網(wǎng)上資源,每次看到一篇好的文章就像保存下來,但是保存網(wǎng)頁(yè)的可讀性太差了,如果轉(zhuǎn)換成Markdown的形式就很舒服。但是網(wǎng)頁(yè)中會(huì)有許多無聊的標(biāo)簽干擾,于是寫個(gè)簡(jiǎn)單的工具使用的python庫(kù)
beautifulsoup4
requests
html2text
目錄csdn.py csdn博客爬蟲
jianshu.py 簡(jiǎn)書博客爬蟲
juejin.py 掘金文章爬蟲
segmentfault.py segmentfault文章爬蟲
使用方法舉例import html2md url_list = [ "http://blog.csdn.net/qq_37482544/article/details/63720726", # csdn "https://www.jianshu.com/p/b6220e99df2d", # jianshu "https://juejin.im/post/5a68437b6fb9a01ca47aabc6", # juejin "https://segmentfault.com/a/1190000011929414", # segmentfault "http://www.voidcn.com/article/p-giqfrkhb-bbr.html", # 其他 "https://www.cnblogs.com/zxqstrong/p/4789105.html" ] for url in url_list: checkSite(url)項(xiàng)目地址
https://github.com/No-96/Feng...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/41303.html
摘要:但發(fā)現(xiàn)導(dǎo)出來的沒有高亮語(yǔ)法沒有語(yǔ)法高亮咋看啊,所以到這里我就放棄了,將就用一下博客園生成的吧爬蟲學(xué)習(xí)上面提供的接口是一個(gè)生成一個(gè)文件,我是不可能一個(gè)一個(gè)將鏈接和標(biāo)題放上去生成的因?yàn)椴┛蛨@上發(fā)的也將近篇了。 前言 只有光頭才能變強(qiáng) 之前有讀者問過我:3y你的博客有沒有電子版的呀?我想要份電子版的。我說:沒有啊,我沒有弄過電子版的,我這邊有個(gè)文章導(dǎo)航頁(yè)面,你可以去文章導(dǎo)航去找來看呀..然后...
摘要:爬取百思不得姐首先一步一步來,我們先從爬最簡(jiǎn)單的文本開始。將百思不得姐段子保存到中別忘了將管道加到配置文件中。雖然我只是簡(jiǎn)單的爬了百思不得姐,不過這些方法可以應(yīng)用到其他方面,爬取更多更有用的數(shù)據(jù)。 前一篇文章介紹了很多關(guān)于scrapy的進(jìn)階知識(shí),不過說歸說,只有在實(shí)際應(yīng)用中才能真正用到這些知識(shí)。所以這篇文章就來嘗試?yán)胹crapy爬取各種網(wǎng)站的數(shù)據(jù)。 爬取百思不得姐 首先一步一步來,我...
摘要:前言大約一個(gè)月前,微博的圖片外鏈?zhǔn)Я?,以及掘金因?yàn)楸I鏈問題也于決定開啟防盜鏈,造成的影響是個(gè)人博客網(wǎng)站的引用了這些圖片外鏈都不能顯示。比如前段時(shí)間我的博客上引用的微博圖片都不能顯示了。用新的圖片鏈接替換文件中某個(gè)域名的圖片鏈接。 showImg(https://segmentfault.com/img/remote/1460000019393704); 前言 大約一個(gè)月前,微博的圖片...
前言 從 9 月份開始,vuepress 源碼進(jìn)行了重新設(shè)計(jì)和拆分。先是開了個(gè) next 分支,后來又合并到 master 分支,為即將發(fā)布的 1.x 版本做準(zhǔn)備。 最主要的變化是:大部分的全局功能都被拆分成了插件的形式,以可插拔的方式來支撐 vuepress 的運(yùn)作,這一點(diǎn)很像 webpack。 具體架構(gòu)如下: showImg(https://user-gold-cdn.xitu.io/2019...
閱讀 968·2021-10-13 09:39
閱讀 3641·2021-09-26 10:16
閱讀 2964·2019-08-30 15:54
閱讀 1116·2019-08-30 14:22
閱讀 2952·2019-08-29 15:39
閱讀 3356·2019-08-27 10:52
閱讀 864·2019-08-26 13:59
閱讀 1840·2019-08-26 12:20