爬去哪兒網(wǎng)5A景點(diǎn)評(píng)論

wudengzan 發(fā)布于2019-07-30 15:26 / 1035人閱讀

摘要：目的獲得去哪兒網(wǎng)評(píng)論信息包括評(píng)論和打分，保存到本地文件。去除無(wú)用的評(píng)論保存到本地文件哪網(wǎng)景區(qū)的的評(píng)論評(píng)分去哪網(wǎng)獲得景點(diǎn)本次共爬取信息條數(shù)據(jù)成果展示外加反省大概萬(wàn)條吧美滋滋等我開心完就回來(lái)就回來(lái)整理出現(xiàn)的問題歡迎各位大佬批評(píng)指正

目的

獲得去哪兒網(wǎng)評(píng)論信息（包括評(píng)論和打分），保存到本地csv文件。

前期準(zhǔn)備工作（踩點(diǎn)）

1、打開網(wǎng)站，在門票搜索框直接輸入“5A”，發(fā)現(xiàn)可以獲得5A景區(qū)列表。

2、按下F12，讓我們看一看，他們是如何組織這些景點(diǎn)信息的

哈哈，可以看到他們把所有的景點(diǎn)信息都放在了一個(gè)json文件里面，也就說我們直接獲取這個(gè)json文件就能直接得到5A景點(diǎn)的列表了。
下面是獲取json的url，參數(shù)一目了然有沒有？！

http://piao.qunar.com/ticket/list.json?keyword=5A®ion=&from=mps_search_suggest&page=2

3、接下來(lái)我們?cè)傺芯恳幌旅總€(gè)景點(diǎn)的詳情頁(yè)

一樣的配方，一樣的味道！每個(gè)景點(diǎn)所有的評(píng)論依然在一個(gè)json文件里面
看到下面url里面的sightId了嗎,經(jīng)過驗(yàn)證這個(gè)就是景點(diǎn)的編號(hào).

http://piao.qunar.com/ticket/detailLight/sightCommentList.json?sightId=3076&index=2&page=2&pageSize=10&tagType=0

現(xiàn)在我們大致已經(jīng)有了思路.第一步,獲得所有5A景點(diǎn)的信息用列表保存[景點(diǎn)名字,景點(diǎn)id],第二部,由景點(diǎn)id可以獲得景點(diǎn)評(píng)論.一切看起來(lái)都是那么順利.

4、等等似乎有什么不對(duì)我們?cè)僮屑?xì)看看

注意到左邊json里面的sightid了嗎?是"1582294258"明顯不是我們剛才獲取評(píng)論時(shí)用到的那個(gè)呀!倒是和地址欄里面的那個(gè)是一樣的.好吧,看來(lái)看來(lái)他們對(duì)每個(gè)景點(diǎn)設(shè)置兩個(gè)id,一個(gè)用于獲取html文件(記為id)另一個(gè)是評(píng)論id(記為rid).看來(lái)需要研究一下怎么把id變?yōu)閞id

好吧,發(fā)現(xiàn)這個(gè)id隱藏在head標(biāo)簽下嘍.

上代碼

采完點(diǎn),我們就可以寫代碼了

import pandas as pd
import requests as req
import time,json

#獲得景點(diǎn)id
def GetId():
    sightlist = []#儲(chǔ)存包含景點(diǎn)列表的json
    for i in range(1,23):#先把所有景點(diǎn)列表的json都下載下來(lái)
        url = "http://piao.qunar.com/ticket/list.json?from=mpl_search_suggest_h&keyword=5a&page=" + str(i) + "&sort="
        response = req.get(url)
        r = json.loads(response.text)
        sightlist.append(r)
        response.close
        #time.sleep(3)
    sight = {}#景點(diǎn)倉(cāng)庫(kù)所有的景點(diǎn)及其對(duì)應(yīng)的id都放在這里
    for jsons in sightlist:#處理每個(gè)json，獲得景點(diǎn)信息
        lists = jsons["data"]["sightList"]
        for each in lists:
            #print(each["sightName"])
            key = each["sightName"]
            sight[key] = each["sightId"]
    
    return sight
#垃圾查找函數(shù)，不會(huì)正則表達(dá)式，真是無(wú)奈
def search(s,e,r):
    start = r.find(s)
    l = len(s)
    end = r.find(e,start+l,start+100)
    rr = r[start+l:end]
    return rr
#獲得評(píng)論id
def Getrid(id):
    url = "http://piao.qunar.com/ticket/detail_" + str(id) + ".html"
    response = req.get(url)
    text = response.text
    rid = search("piao.qunar.com/ticket/detail_",".html",text)#這個(gè)方法是我百度的，有些時(shí)候用起來(lái)還真是方便
    num = search("全部(",")",text)
    
    dd = []
    dd.append(rid)
    dd.append(num)
    return dd
#獲得一個(gè)景點(diǎn)的評(píng)論
def Getcom(rid,num,name):
    comments = [["*********************************以下是" + name + "的評(píng)論*********************************",""]]#初始化并給每個(gè)景點(diǎn)的評(píng)論加上表頭
    page = 1200 if int(num) > 1200 else int(num)#按照上級(jí)要求，每個(gè)景點(diǎn)1200條左右評(píng)論就行
    for i in range(1,(page//10)+1):#逐頁(yè)獲取評(píng)論并保存
        url = "http://piao.qunar.com/ticket/detailLight/sightCommentList.json?sightId=" + str(rid) + "&index="+ str(i) + "&page=" + str(i) + "&pageSize=10&tagType=0"
        response = req.get(url)
        r = json.loads(response.text)
        if "commentList" in r["data"].keys():
            for each in r["data"]["commentList"]:
                data = []#【評(píng)論，評(píng)分】
                data.append(each["content"])
                data.append(each["score"])
                if data[0] == "用戶未點(diǎn)評(píng)，系統(tǒng)默認(rèn)好評(píng)。":#去除無(wú)用的評(píng)論
                    continue
                comments.append(data)
                print(data[0])
                print(data[1])
                
    return comments

#保存到本地文件
def save(l):
    
    head = ["哪網(wǎng)5A景區(qū)的的評(píng)論" , "評(píng)分" ]
    df = pd.DataFrame (l , columns = head)
    df.to_csv ("去哪網(wǎng).csv", encoding = "utf-8")

    
if __name__ =="__main__":
    sightid = GetId()#獲得景點(diǎn) id
    comment = []
    for each in sightid:
        print(each)
        print(Getrid(sightid[each])[0])
        print(Getrid(sightid[each])[1])
        
        co = Getcom(Getrid(sightid[each])[0],Getrid(sightid[each])[1],each)
        comment.extend(co)
            
        
    print("本次共爬取信息%d條數(shù)據(jù)"%(len(comment)))
    save(comment)

成果展示外加反省

大概30萬(wàn)條吧,美滋滋.等我開心完就回來(lái),就回來(lái)整理出現(xiàn)的問題.歡迎各位大佬批評(píng)指正.

GPU云服務(wù)器云服務(wù)器美國(guó)景點(diǎn) 爬去 python爬去圖片 jsp景點(diǎn)網(wǎng)站源代碼

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/41251.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

wudengzan

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

離大廠近一點(diǎn)《阿里巴巴集團(tuán)Web安全測(cè)試規(guī)范》獨(dú)家版

閱讀 3890·2021-10-13 09:39
一個(gè)程序員的正版清單

閱讀 3891·2021-09-24 09:48
如何解決兼容問題?Win11僅支持1個(gè)Intel 7代CPU 不支持AMD Zen 1 CPU

閱讀 1259·2021-09-01 10:30
2018.12月問題整理雜記

閱讀 2586·2019-08-30 15:55
CSS選擇器引起的一些思考

閱讀 1839·2019-08-29 16:39
我們不背誦 API，只實(shí)現(xiàn) API

閱讀 2354·2019-08-26 13:55
【每日一包0008】arr-diff

閱讀 3113·2019-08-26 12:23
使用Object.prototype.toString判斷數(shù)據(jù)類型

閱讀 1694·2019-08-26 11:59

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬去哪兒網(wǎng)5A景點(diǎn)評(píng)論

相關(guān)文章

**爬取攜程和螞蜂窩的景點(diǎn)評(píng)論數(shù)據(jù)攜程評(píng)論數(shù)據(jù)爬取旅游網(wǎng)站數(shù)據(jù)爬取**

發(fā)表評(píng)論

0條評(píng)論

wudengzan

男|高級(jí)講師

TA的文章

離大廠近一點(diǎn)《阿里巴巴集團(tuán)Web安全測(cè)試規(guī)范》獨(dú)家版

一個(gè)程序員的正版清單

如何解決兼容問題?Win11僅支持1個(gè)Intel 7代CPU 不支持AMD Zen 1 CPU

2018.12月問題整理雜記

CSS選擇器引起的一些思考

我們不背誦 API，只實(shí)現(xiàn) API

【每日一包0008】arr-diff

使用Object.prototype.toString判斷數(shù)據(jù)類型

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬去哪兒網(wǎng)5A景點(diǎn)評(píng)論

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！