使用Scrapy抓取新浪微博用戶信息

Cruise_Chan 發(fā)布于2019-06-26 17:57 / 2664人閱讀

摘要：詳細代碼可查看數(shù)據的來源是新浪微博的手機端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始

詳細代碼可查看Knowsmore

數(shù)據的來源是新浪微博的手機端H5頁面

個人資料API：https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API：https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數(shù)從1開始】

# -*- coding: utf-8 -*-
import scrapy
import re
import json
import os,sys
from scrapy import Selector, Request
from knowsmore.items import WeiboUserItem, WeiboStatusItem
from ..common import *
from ..model.mongodb import *

WEIBO_USER_CONFIG = {
    "BASE_URL" : "https://m.weibo.cn",
    "USER_IDS" : ["6883966016"]
}

class WeiboUserSpider(scrapy.Spider):

    name = "weibo_user"

    def start_requests(self):
        for uid in WEIBO_USER_CONFIG["USER_IDS"]:
            url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid)
            yield Request(url)
            # Define your statuses implementation here, just a demo below
            for i in range(1, 2):
                status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i)
                yield Request(status_url, callback=self.parse_status)

    # https://m.weibo.cn/profile/1784537661
    def parse(self, response):
        user_data = json.loads(response.text)
        yield WeiboUserItem(
            fans_url = user_data["data"]["fans"],
            follow_url = user_data["data"]["follow"],
            more_url = user_data["data"]["more"],
            user = user_data["data"]["user"]
        )

    # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2
    def parse_status(self, response):
        status_data = json.loads(response.text)
        yield WeiboStatusItem(
            cards = status_data["data"]["cards"]
        )

云服務器 GPU云服務器 python抓取微博新浪微博仿新浪微博新浪微博分享

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://m.hztianpu.com/yun/19465.html

使用Scrapy抓取新浪微博用戶信息

摘要：詳細代碼可查看數(shù)據的來源是新浪微博的手機端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始詳細代碼可查看Knowsmore 數(shù)據的來源是新浪微博的手機端H5頁面個人資料API：https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API：https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE...

dingding199389 2019-07-30 18:44 評論0 收藏0
23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等

摘要：今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄，可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼，包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

jlanglang 2019-07-31 10:09 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數(shù)據是專業(yè)的互聯(lián)網數(shù)據技術服務，現(xiàn)整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數(shù)據提供網站數(shù)據采集和爬蟲軟件定制開發(fā)服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數(shù)據是專業(yè)的互聯(lián)網數(shù)據技術服務，現(xiàn)整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
利用新浪API實現(xiàn)數(shù)據的抓取微博數(shù)據爬取微博爬蟲

摘要：本人長期出售超大量微博數(shù)據旅游網站評論數(shù)據，并提供各種指定數(shù)據爬取服務，。如果用戶傳入偽造的，則新浪微博會返回一個錯誤。 PS:(本人長期出售超大量微博數(shù)據、旅游網站評論數(shù)據，并提供各種指定數(shù)據爬取服務，Message to YuboonaZhang@Yahoo.com。由于微博接口更新后限制增大，這個代碼已經不能用來爬數(shù)據了。如果只是為了收集數(shù)據可以咨詢我的郵箱，如果是為了學習爬蟲，...

liuyix 2019-07-30 15:12 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

Cruise_Chan

男|高級講師

我要關注我要私信

TA的文章

如何選擇云虛擬主機-該怎么選擇合適自己的云虛擬主機？

閱讀 1318·2021-09-22 15:43
華為如何上傳文件到windows云主機-云主機怎么上傳程序呢？

閱讀 2526·2021-09-22 15:32
主機指的是什么-通常所說的主機是指什么？

閱讀 4761·2021-09-22 15:11
CSS居中總結大全

閱讀 2460·2019-08-30 15:55
CSS+DIV自適應布局

閱讀 2802·2019-08-30 15:54
浮動定位之三列布局問題與發(fā)現(xiàn)（下）

閱讀 1111·2019-08-30 15:44
前端面試總結——持續(xù)更新

閱讀 1298·2019-08-29 13:26
CSS 公共樣式分享

閱讀 935·2019-08-29 12:54

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Scrapy抓取新浪微博用戶信息

相關文章

**使用Scrapy抓取新浪微博用戶信息**

23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎如何學爬蟲技術

利用新浪API實現(xiàn)數(shù)據的抓取微博數(shù)據爬取微博爬蟲

發(fā)表評論

0條評論

Cruise_Chan

男|高級講師

TA的文章

如何選擇云虛擬主機-該怎么選擇合適自己的云虛擬主機？

華為如何上傳文件到windows云主機-云主機怎么上傳程序呢？

主機指的是什么-通常所說的主機是指什么？

CSS居中總結大全

CSS+DIV自適應布局

浮動定位之三列布局問題與發(fā)現(xiàn)（下）

前端面試總結——持續(xù)更新

CSS 公共樣式分享

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Scrapy抓取新浪微博用戶信息

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！