成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專(zhuān)欄INFORMATION COLUMN

互聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)-第一課 p2p網(wǎng)貸爬蟲(chóng)(XPath入門(mén))

kk_miles / 1590人閱讀

摘要:之前寫(xiě)了一個(gè)電商爬蟲(chóng)系列的文章,簡(jiǎn)單的給大家展示了一下爬蟲(chóng)從入門(mén)到進(jìn)階的路徑,但是作為一個(gè)永遠(yuǎn)走在時(shí)代前沿的科技工作者,我們從來(lái)都不能停止。金融數(shù)據(jù)實(shí)在是價(jià)值大,維度多,來(lái)源廣。由于也是一種,因此通常來(lái)說(shuō),在中抽取某個(gè)元素是通過(guò)來(lái)做的。

相關(guān)教程:

手把手教你寫(xiě)電商爬蟲(chóng)-第一課 找個(gè)軟柿子捏捏

手把手教你寫(xiě)電商爬蟲(chóng)-第二課 實(shí)戰(zhàn)尚妝網(wǎng)分頁(yè)商品采集爬蟲(chóng)

手把手教你寫(xiě)電商爬蟲(chóng)-第三課 實(shí)戰(zhàn)尚妝網(wǎng)AJAX請(qǐng)求處理和內(nèi)容提取

手把手教你寫(xiě)電商爬蟲(chóng)-第四課 淘寶網(wǎng)商品爬蟲(chóng)自動(dòng)JS渲染

手把手教你寫(xiě)電商爬蟲(chóng)-第五課 京東商品評(píng)論爬蟲(chóng) 一起來(lái)對(duì)付反爬蟲(chóng)

工具要求:教程中主要使用到了 1、神箭手云爬蟲(chóng) 框架 這個(gè)是爬蟲(chóng)的基礎(chǔ),2、Chrome瀏覽器和Chrome的插件XpathHelper 這個(gè)用來(lái)測(cè)試Xpath寫(xiě)的是否正確

基礎(chǔ)知識(shí): 本教程中主要用到了一些基礎(chǔ)的js和xpath語(yǔ)法,如果對(duì)這兩種語(yǔ)言不熟悉,可以提前先學(xué)習(xí)下,都很簡(jiǎn)單。

之前寫(xiě)了一個(gè)電商爬蟲(chóng)系列的文章,簡(jiǎn)單的給大家展示了一下爬蟲(chóng)從入門(mén)到進(jìn)階的路徑,但是作為一個(gè)永遠(yuǎn)走在時(shí)代前沿的科技工作者,我們從來(lái)都不能停止。

在已有的成果上,所以帶上你的chrome,拿起你的xpathhelper,打開(kāi)你的神箭手,讓我們?cè)俅翁ど险鲬?zhàn)金融數(shù)據(jù)之旅吧。(上個(gè)系列相對(duì)難一些,建議如果是初學(xué)者,先看這個(gè)系列的教程)。

金融數(shù)據(jù)實(shí)在是價(jià)值大,維度多,來(lái)源廣。我們到底從哪里入手呢?想來(lái)想去,就從前一段時(shí)間風(fēng)云變幻的p2p網(wǎng)貸開(kāi)始吧。

同樣,我們教程的一致風(fēng)格就是先找個(gè)軟柿子,上來(lái)不能用力過(guò)猛,逐漸培養(yǎng)自己的信心,等真正敵人來(lái)的時(shí)候,才不至于怯場(chǎng)害怕。

我們先去搜索一下p2p網(wǎng)站,隨便找?guī)讉€(gè)對(duì)比一下,選中了這個(gè)滬商財(cái)富。

看著這樣的收益率,心動(dòng)了有木有,錢(qián)包坐不住了有木有,對(duì)余額寶投出鄙夷的目光了有木有。

好了,閑話(huà)不說(shuō),這個(gè)系列課程吸取上個(gè)系列課程里進(jìn)度太快的教訓(xùn),給大家多講一些基礎(chǔ)的知識(shí),這一課就結(jié)合這個(gè)實(shí)例,重點(diǎn)講講xpath的編寫(xiě)和用法。

首先,大體來(lái)講,XPath是一個(gè)相對(duì)簡(jiǎn)單的語(yǔ)言,甚至都不一定能稱(chēng)得上是一個(gè)語(yǔ)言,主要用處是用來(lái)標(biāo)記XML的元素路徑。由于html也是一種xml,因此通常來(lái)說(shuō),在html中抽取某個(gè)元素是通過(guò)XPath來(lái)做的。XPath本身和Css有著很大的相似性,一般來(lái)說(shuō)如果之前對(duì)Css有一定的了解的話(huà),XPath上手還是很簡(jiǎn)單的。具體的情況我在下面的課程中一邊寫(xiě),一邊解釋。

首先先確定列表頁(yè):

http://www.hushangcaifu.com/invest/main.html

http://www.hushangcaifu.com/invest/index2.html

http://www.hushangcaifu.com/invest/index3.html

基本上可以看到列表頁(yè)除了第一頁(yè)以外都有規(guī)律可尋,不過(guò)看到這個(gè)效果,通常我們最好精益求精一下,看下第一頁(yè)是否也可以符合規(guī)律呢?

打開(kāi) http://www.hushangcaifu.com/invest/index1.html 果然也是第一頁(yè),好了,很完美,總結(jié)成正則表達(dá)式:

http://www.hushangcaifu.com/invest/indexd+.html

再看下詳情頁(yè):

http://www.hushangcaifu.com/invest/a3939.html

http://www.hushangcaifu.com/invest/a3936.html

哈哈,小菜一碟,直接化解成正則:

http://www.hushangcaifu.com/invest/ad{4}.html

好了,最后最重要的就是提取頁(yè)面元素了。我們打開(kāi)詳情頁(yè):

http://www.hushangcaifu.com/invest/a3870.html

一般來(lái)說(shuō),我們?cè)谖覀兿胍崛〉脑厣嫌覔?,點(diǎn)擊審查元素,得到如下結(jié)果:

首先看到y(tǒng)anh1147這個(gè)元素有沒(méi)有整個(gè)網(wǎng)頁(yè)唯一的class,id或者其他屬性,可以看到,在這個(gè)頁(yè)面中沒(méi)有,那么我們就往上找,上一級(jí)的p標(biāo)簽也沒(méi)有,咱們?cè)偻险遥谏弦患?jí)是一個(gè),終于有class了,讓我們祈禱這個(gè)class是唯一的吧,ctrl+f打開(kāi)搜索框,輸入product-content-top-left-top,可以看到,找到了1 of 1,這個(gè)代表一共一個(gè),這個(gè)是第一個(gè),這就是我們希望的結(jié)果,好了,只用找到這一級(jí)既可,我們來(lái)構(gòu)造整個(gè)的xpath,一般來(lái)說(shuō)xpath我們并不會(huì)從最頂層的html開(kāi)始寫(xiě),因?yàn)闆](méi)有必要,因此我們要使用//,這個(gè)表示不知中間有多少的層級(jí)。接著我們直接把剛剛找到的這個(gè)div寫(xiě)上去,得到這個(gè)表達(dá)式:

//div[contains(@class,"product-content-top-left-top")]

對(duì)于class屬性,我們通常會(huì)使用contains這樣一個(gè)函數(shù),防止一個(gè)元素有多個(gè)class的情況,另外因?yàn)閏lass是一個(gè)屬性,因此class前面需要加上@代表選擇到該元素的一個(gè)屬性。

現(xiàn)在我們已經(jīng)選擇到了我們要選擇的元素的父元素的父元素,只要我們繼續(xù)往下走兩層既可。

//div[contains(@class,"product-content-top-left-top")]/p/span

由于我們要選擇元素里的文字信息,而不是整個(gè)元素,我們需要指定是這個(gè)元素的文字:

//div[contains(@class,"product-content-top-left-top")]/p/span/text()

好了,這樣我們就確定了我們爬取的借款用戶(hù)的名稱(chēng),我們打開(kāi)xpathhelper驗(yàn)證一下有沒(méi)有寫(xiě)錯(cuò):

完美的結(jié)果。不過(guò)大家有的時(shí)候也需要注意,因?yàn)橛械木W(wǎng)頁(yè)不代表你在一個(gè)內(nèi)容頁(yè)測(cè)試成功,在其他內(nèi)容頁(yè)也能成功,最好多測(cè)幾個(gè)頁(yè)面才是保險(xiǎn)的。好了,其他的抽取項(xiàng)就不一一演示了,直接上最后的代碼。

var configs = {

domains: ["www.hushangcaifu.com"],

scanUrls: ["http://www.hushangcaifu.com/invest/index1.html"],

contentUrlRegexes: ["http://www.hushangcaifu.com/invest/ad{4}.html"],

helperUrlRegexes: ["http://www.hushangcaifu.com/invest/indexd+.html"],

fields: [

{

name: "title",

selector: "http://div[contains(@class,"product-content-top-left-top")]/h3/text()",

required: true

},

{

name: "user_name",

selector: "http://div[contains(@class,"product-content-top-left-top")]/p/span/text()"

},

{

name: "total_money",

selector: "http://div[contains(@class,"product-content-top-left-middle")]/div[1]/h4/text()"

},

{

name: "project_time",

selector: "http://div[contains(@class,"product-content-top-left-middle")]/div[2]/h4/text()"

},

{

name: "annual_return",

selector: "http://div[contains(@class,"product-content-top-left-middle")]/div[3]/h4/text()"

},

{

name: "return_method",

selector: "http://div[contains(@class,"product-content-top-left-middle")]/div[4]/h4/text()"

}

]

};

var crawler = new Crawler(configs);

crawler.start();

將代碼粘貼到神箭手平臺(tái)上既可運(yùn)行。好了,看下運(yùn)行結(jié)果:

對(duì)爬蟲(chóng)感興趣的童鞋可以加qq群討論: 566855261。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/86467.html

相關(guān)文章

  • 聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)一課 p2p網(wǎng)貸爬蟲(chóng)XPath入門(mén)

    摘要:之前寫(xiě)了一個(gè)電商爬蟲(chóng)系列的文章,簡(jiǎn)單的給大家展示了一下爬蟲(chóng)從入門(mén)到進(jìn)階的路徑,但是作為一個(gè)永遠(yuǎn)走在時(shí)代前沿的科技工作者,我們從來(lái)都不能停止。金融數(shù)據(jù)實(shí)在是價(jià)值大,維度多,來(lái)源廣。由于也是一種,因此通常來(lái)說(shuō),在中抽取某個(gè)元素是通過(guò)來(lái)做的。 相關(guān)教程: 手把手教你寫(xiě)電商爬蟲(chóng)-第一課 找個(gè)軟柿子捏捏 手把手教你寫(xiě)電商爬蟲(chóng)-第二課 實(shí)戰(zhàn)尚妝網(wǎng)分頁(yè)商品采集爬蟲(chóng) 手把手教你寫(xiě)電商爬蟲(chóng)-第三課 實(shí)戰(zhàn)...

    jlanglang 評(píng)論0 收藏0
  • 聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)-第二課 雪球網(wǎng)股票爬蟲(chóng)(正則表達(dá)式入門(mén)

    摘要:系列教程互聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)第一課網(wǎng)貸爬蟲(chóng)入門(mén)上一節(jié)課我們一起通過(guò)一個(gè)網(wǎng)貸爬蟲(chóng),深入了解了一下以及其在最終實(shí)際使用中的寫(xiě)法??梢院敛豢鋸埖恼f(shuō),對(duì)于寫(xiě)簡(jiǎn)單爬蟲(chóng)來(lái)說(shuō),最最重要的,就是使用好,以及這一課要講的正則表達(dá)式。 系列教程: 互聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)-第一課 p2p網(wǎng)貸爬蟲(chóng)(XPath入門(mén))? 上一節(jié)課我們一起通過(guò)一個(gè)p2p網(wǎng)貸爬蟲(chóng),深入了解了一下XPath以及其在最終實(shí)際使用中的寫(xiě)法。...

    wenyiweb 評(píng)論0 收藏0
  • 聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)-第二課 雪球網(wǎng)股票爬蟲(chóng)(正則表達(dá)式入門(mén)

    摘要:系列教程互聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)第一課網(wǎng)貸爬蟲(chóng)入門(mén)上一節(jié)課我們一起通過(guò)一個(gè)網(wǎng)貸爬蟲(chóng),深入了解了一下以及其在最終實(shí)際使用中的寫(xiě)法??梢院敛豢鋸埖恼f(shuō),對(duì)于寫(xiě)簡(jiǎn)單爬蟲(chóng)來(lái)說(shuō),最最重要的,就是使用好,以及這一課要講的正則表達(dá)式。 系列教程: 互聯(lián)網(wǎng)金融爬蟲(chóng)怎么寫(xiě)-第一課 p2p網(wǎng)貸爬蟲(chóng)(XPath入門(mén))? 上一節(jié)課我們一起通過(guò)一個(gè)p2p網(wǎng)貸爬蟲(chóng),深入了解了一下XPath以及其在最終實(shí)際使用中的寫(xiě)法。...

    entner 評(píng)論0 收藏0
  • 手把手教你寫(xiě)電商爬蟲(chóng)-第二課 實(shí)戰(zhàn)尚妝網(wǎng)分頁(yè)商品采集爬蟲(chóng)

    摘要:剩下的同學(xué),我們繼續(xù)了可以看出,作為一個(gè)完善的電商網(wǎng)站,尚妝網(wǎng)有著普通電商網(wǎng)站所擁有的主要的元素,包括分類(lèi),分頁(yè),主題等等。 系列教程 手把手教你寫(xiě)電商爬蟲(chóng)-第一課 找個(gè)軟柿子捏捏 如果沒(méi)有看過(guò)第一課的朋友,請(qǐng)先移步第一課,第一課講了一些基礎(chǔ)性的東西,通過(guò)軟柿子切糕王子這個(gè)電商網(wǎng)站好好的練了一次手,相信大家都應(yīng)該對(duì)寫(xiě)爬蟲(chóng)的流程有了一個(gè)大概的了解,那么這課咱們就話(huà)不多說(shuō),正式上戰(zhàn)場(chǎng),對(duì)壘...

    junfeng777 評(píng)論0 收藏0
  • 手把手教你寫(xiě)電商爬蟲(chóng)-第二課 實(shí)戰(zhàn)尚妝網(wǎng)分頁(yè)商品采集爬蟲(chóng)

    摘要:剩下的同學(xué),我們繼續(xù)了可以看出,作為一個(gè)完善的電商網(wǎng)站,尚妝網(wǎng)有著普通電商網(wǎng)站所擁有的主要的元素,包括分類(lèi),分頁(yè),主題等等。 系列教程 手把手教你寫(xiě)電商爬蟲(chóng)-第一課 找個(gè)軟柿子捏捏 如果沒(méi)有看過(guò)第一課的朋友,請(qǐng)先移步第一課,第一課講了一些基礎(chǔ)性的東西,通過(guò)軟柿子切糕王子這個(gè)電商網(wǎng)站好好的練了一次手,相信大家都應(yīng)該對(duì)寫(xiě)爬蟲(chóng)的流程有了一個(gè)大概的了解,那么這課咱們就話(huà)不多說(shuō),正式上戰(zhàn)場(chǎng),對(duì)壘...

    objc94 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<