成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

使用Scrapy抓取新浪微博用戶信息

Cruise_Chan / 2664人閱讀

摘要:詳細代碼可查看數(shù)據的來源是新浪微博的手機端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始

詳細代碼可查看Knowsmore

數(shù)據的來源是新浪微博的手機端H5頁面

個人資料API:https://m.weibo.cn/profile/in...【用戶ID】

發(fā)出的微博API:https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數(shù)從1開始】

# -*- coding: utf-8 -*-
import scrapy
import re
import json
import os,sys
from scrapy import Selector, Request
from knowsmore.items import WeiboUserItem, WeiboStatusItem
from ..common import *
from ..model.mongodb import *

WEIBO_USER_CONFIG = {
    "BASE_URL" : "https://m.weibo.cn",
    "USER_IDS" : ["6883966016"]
}

class WeiboUserSpider(scrapy.Spider):

    name = "weibo_user"

    def start_requests(self):
        for uid in WEIBO_USER_CONFIG["USER_IDS"]:
            url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid)
            yield Request(url)
            # Define your statuses implementation here, just a demo below
            for i in range(1, 2):
                status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i)
                yield Request(status_url, callback=self.parse_status)

    # https://m.weibo.cn/profile/1784537661
    def parse(self, response):
        user_data = json.loads(response.text)
        yield WeiboUserItem(
            fans_url = user_data["data"]["fans"],
            follow_url = user_data["data"]["follow"],
            more_url = user_data["data"]["more"],
            user = user_data["data"]["user"]
        )

    # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2
    def parse_status(self, response):
        status_data = json.loads(response.text)
        yield WeiboStatusItem(
            cards = status_data["data"]["cards"]
        )

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://m.hztianpu.com/yun/19465.html

相關文章

  • 使用Scrapy抓取新浪微博用戶信息

    摘要:詳細代碼可查看數(shù)據的來源是新浪微博的手機端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始 詳細代碼可查看Knowsmore 數(shù)據的來源是新浪微博的手機端H5頁面 個人資料API:https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API:https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE...

    dingding199389 評論0 收藏0
  • 23個Python爬蟲開源項目代碼,包含微信、淘寶、豆瓣、知乎、微博

    摘要:今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評論0 收藏0
  • 零基礎如何學爬蟲技術

    摘要:楚江數(shù)據是專業(yè)的互聯(lián)網數(shù)據技術服務,現(xiàn)整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數(shù)據提供網站數(shù)據采集和爬蟲軟件定制開發(fā)服務,服務范圍涵蓋社交網絡電子商務分類信息學術研究等。 楚江數(shù)據是專業(yè)的互聯(lián)網數(shù)據技術服務,現(xiàn)整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...

    KunMinX 評論0 收藏0
  • 利用新浪API實現(xiàn)數(shù)據的抓取微博數(shù)據爬取微博爬蟲

    摘要:本人長期出售超大量微博數(shù)據旅游網站評論數(shù)據,并提供各種指定數(shù)據爬取服務,。如果用戶傳入偽造的,則新浪微博會返回一個錯誤。 PS:(本人長期出售超大量微博數(shù)據、旅游網站評論數(shù)據,并提供各種指定數(shù)據爬取服務,Message to YuboonaZhang@Yahoo.com。由于微博接口更新后限制增大,這個代碼已經不能用來爬數(shù)據了。如果只是為了收集數(shù)據可以咨詢我的郵箱,如果是為了學習爬蟲,...

    liuyix 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<