摘要:詳細代碼可查看數(shù)據的來源是新浪微博的手機端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始
詳細代碼可查看Knowsmore
數(shù)據的來源是新浪微博的手機端H5頁面
個人資料API:https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API:https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數(shù)從1開始】
# -*- coding: utf-8 -*- import scrapy import re import json import os,sys from scrapy import Selector, Request from knowsmore.items import WeiboUserItem, WeiboStatusItem from ..common import * from ..model.mongodb import * WEIBO_USER_CONFIG = { "BASE_URL" : "https://m.weibo.cn", "USER_IDS" : ["6883966016"] } class WeiboUserSpider(scrapy.Spider): name = "weibo_user" def start_requests(self): for uid in WEIBO_USER_CONFIG["USER_IDS"]: url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid) yield Request(url) # Define your statuses implementation here, just a demo below for i in range(1, 2): status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i) yield Request(status_url, callback=self.parse_status) # https://m.weibo.cn/profile/1784537661 def parse(self, response): user_data = json.loads(response.text) yield WeiboUserItem( fans_url = user_data["data"]["fans"], follow_url = user_data["data"]["follow"], more_url = user_data["data"]["more"], user = user_data["data"]["user"] ) # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2 def parse_status(self, response): status_data = json.loads(response.text) yield WeiboStatusItem( cards = status_data["data"]["cards"] )
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://m.hztianpu.com/yun/19465.html
摘要:詳細代碼可查看數(shù)據的來源是新浪微博的手機端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始 詳細代碼可查看Knowsmore 數(shù)據的來源是新浪微博的手機端H5頁面 個人資料API:https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API:https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE...
摘要:今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:楚江數(shù)據是專業(yè)的互聯(lián)網數(shù)據技術服務,現(xiàn)整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數(shù)據提供網站數(shù)據采集和爬蟲軟件定制開發(fā)服務,服務范圍涵蓋社交網絡電子商務分類信息學術研究等。 楚江數(shù)據是專業(yè)的互聯(lián)網數(shù)據技術服務,現(xiàn)整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...
摘要:本人長期出售超大量微博數(shù)據旅游網站評論數(shù)據,并提供各種指定數(shù)據爬取服務,。如果用戶傳入偽造的,則新浪微博會返回一個錯誤。 PS:(本人長期出售超大量微博數(shù)據、旅游網站評論數(shù)據,并提供各種指定數(shù)據爬取服務,Message to YuboonaZhang@Yahoo.com。由于微博接口更新后限制增大,這個代碼已經不能用來爬數(shù)據了。如果只是為了收集數(shù)據可以咨詢我的郵箱,如果是為了學習爬蟲,...
閱讀 1318·2021-09-22 15:43
閱讀 2526·2021-09-22 15:32
閱讀 4761·2021-09-22 15:11
閱讀 2460·2019-08-30 15:55
閱讀 2802·2019-08-30 15:54
閱讀 1111·2019-08-30 15:44
閱讀 1298·2019-08-29 13:26
閱讀 935·2019-08-29 12:54