摘要:用戶確認(rèn)后存儲。詳情文本類子元素最多的元素,且頁面面積占用最大。后處理詳情希望保留詳情的一些排版,比如代碼塊,高亮區(qū)域等。在使用時(shí)轉(zhuǎn)回顯示。
列表頁解析 列表定位
同性質(zhì)子元素排序
元素面積排序
用戶確認(rèn)區(qū)域后元素xpath并存儲
分頁按鈕定位不包含子元素且文字包含“下一頁,點(diǎn)擊查看更多”等文字的標(biāo)簽。
調(diào)用dom.click()方法自動(dòng)進(jìn)入下一頁,或者提取鏈接,存儲xpath
列表項(xiàng)解析標(biāo)題解析:列表項(xiàng)中字體權(quán)重最大的標(biāo)簽為標(biāo)題。用戶確認(rèn)后存儲xpath。
詳情鏈接提?。簶?biāo)題往上找到a標(biāo)簽。解析后存儲xpath
封面解析:列表項(xiàng)中面積最大的圖片。存儲xpath
詳情頁解析 內(nèi)容識別標(biāo)題:標(biāo)題使用列表項(xiàng)的標(biāo)題即可。
詳情:文本類子元素最多的元素,且頁面面積占用最大。存儲xpath。
時(shí)間解析:正則匹配時(shí)間即可,匹配到之后嘗試緩存xpath。
來源解析:正則匹配即可,同上。
后處理詳情:希望保留詳情的一些排版,比如代碼塊,高亮區(qū)域等。將HTML轉(zhuǎn)為Markdown即可。在使用時(shí)轉(zhuǎn)回HTML顯示。
時(shí)間:使用dateparser將時(shí)間轉(zhuǎn)為ISO8601標(biāo)準(zhǔn)時(shí)間或者時(shí)間戳即可。
存儲:建議存儲至MongoDB,無需提前定義表結(jié)構(gòu)。
上述方案兼容90%的標(biāo)準(zhǔn)網(wǎng)站,比如拉鉤,京東,segmentfault,v2ex,58同城等等。
DEMO已經(jīng)開發(fā)完畢,交流討論或者商業(yè)合作請發(fā)站內(nèi)信。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/109950.html
摘要:用戶確認(rèn)后存儲。詳情文本類子元素最多的元素,且頁面面積占用最大。后處理詳情希望保留詳情的一些排版,比如代碼塊,高亮區(qū)域等。在使用時(shí)轉(zhuǎn)回顯示。 列表頁解析 showImg(https://segmentfault.com/img/bVbuH5K?w=1774&h=1532); 列表定位 同性質(zhì)子元素排序 元素面積排序 用戶確認(rèn)區(qū)域后元素xpath并存儲 分頁按鈕定位 不包含子元素且...
摘要:歡迎來我的個(gè)人站點(diǎn)性能優(yōu)化其他優(yōu)化瀏覽器關(guān)鍵渲染路徑開啟性能優(yōu)化之旅高性能滾動(dòng)及頁面渲染優(yōu)化理論寫法對壓縮率的影響唯快不破應(yīng)用的個(gè)優(yōu)化步驟進(jìn)階鵝廠大神用直出實(shí)現(xiàn)網(wǎng)頁瞬開緩存網(wǎng)頁性能管理詳解寫給后端程序員的緩存原理介紹年底補(bǔ)課緩存機(jī)制優(yōu)化動(dòng) 歡迎來我的個(gè)人站點(diǎn) 性能優(yōu)化 其他 優(yōu)化瀏覽器關(guān)鍵渲染路徑 - 開啟性能優(yōu)化之旅 高性能滾動(dòng) scroll 及頁面渲染優(yōu)化 理論 | HTML寫法...
摘要:歡迎來我的個(gè)人站點(diǎn)性能優(yōu)化其他優(yōu)化瀏覽器關(guān)鍵渲染路徑開啟性能優(yōu)化之旅高性能滾動(dòng)及頁面渲染優(yōu)化理論寫法對壓縮率的影響唯快不破應(yīng)用的個(gè)優(yōu)化步驟進(jìn)階鵝廠大神用直出實(shí)現(xiàn)網(wǎng)頁瞬開緩存網(wǎng)頁性能管理詳解寫給后端程序員的緩存原理介紹年底補(bǔ)課緩存機(jī)制優(yōu)化動(dòng) 歡迎來我的個(gè)人站點(diǎn) 性能優(yōu)化 其他 優(yōu)化瀏覽器關(guān)鍵渲染路徑 - 開啟性能優(yōu)化之旅 高性能滾動(dòng) scroll 及頁面渲染優(yōu)化 理論 | HTML寫法...
摘要:歡迎來我的個(gè)人站點(diǎn)性能優(yōu)化其他優(yōu)化瀏覽器關(guān)鍵渲染路徑開啟性能優(yōu)化之旅高性能滾動(dòng)及頁面渲染優(yōu)化理論寫法對壓縮率的影響唯快不破應(yīng)用的個(gè)優(yōu)化步驟進(jìn)階鵝廠大神用直出實(shí)現(xiàn)網(wǎng)頁瞬開緩存網(wǎng)頁性能管理詳解寫給后端程序員的緩存原理介紹年底補(bǔ)課緩存機(jī)制優(yōu)化動(dòng) 歡迎來我的個(gè)人站點(diǎn) 性能優(yōu)化 其他 優(yōu)化瀏覽器關(guān)鍵渲染路徑 - 開啟性能優(yōu)化之旅 高性能滾動(dòng) scroll 及頁面渲染優(yōu)化 理論 | HTML寫法...
摘要:我最開始學(xué)習(xí)編程的時(shí)候也是如此,摸索了非常久的時(shí)間,才慢慢找到自己高效學(xué)習(xí)方法。被動(dòng)的學(xué)習(xí)方式聽講閱讀視聽演示,只能讓你做到內(nèi)容留存率的和的知識。而主動(dòng)的學(xué)習(xí)方式,如通過討論實(shí)踐教授給他人,會將原來被動(dòng)學(xué)習(xí)的內(nèi)容留存率從提升到和。 showImg(https://segmentfault.com/img/remote/1460000016856679); 閱讀文本大概需要 7 分鐘。 ...
閱讀 3194·2021-11-18 10:02
閱讀 2682·2021-10-13 09:47
閱讀 3173·2021-09-22 15:07
閱讀 906·2019-08-30 15:43
閱讀 1901·2019-08-30 10:59
閱讀 1786·2019-08-29 15:34
閱讀 1796·2019-08-29 15:06
閱讀 521·2019-08-29 13:28