Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

zone 發(fā)布于2021-09-22 10:02 / 1681人閱讀

摘要：爬蟲數(shù)據(jù)寫入文件中文亂碼，用在中打開文件沒有問題，但是用打開卻出現(xiàn)了問題，以下為解決方法。

python爬蟲數(shù)據(jù)寫入csv文件中文亂碼，用’utf-8‘在pycharm中打開文件沒有問題，但是用excel打開卻出現(xiàn)了問題，以下為解決方法。
（最近在練習(xí)爬蟲，這個(gè)博文是對(duì)自己學(xué)習(xí)的記錄和分享，如果有問題，非常感謝各路大佬指出?。。。?/p>

for r in result:????????r_lis=[]                                 #方法二：將爬到的內(nèi)容儲(chǔ)存在csv文件中????????r_lis.append(r.text)????????with open("company.csv","a",newline="",encoding="utf-8-sig") as csvfile:   ???????? spamwriter=csv.writer(csvfile, delimiter=",")    ????????spamwriter.writerow(r_lis)

在with自開合那里加入newline="",encoding="utf-8-sig"是關(guān)鍵

以下是天眼查的爬蟲

import requestsfrom bs4 import BeautifulSoupfrom urllib.parse import quoteimport csv   #公司信息以csv的格式存儲(chǔ)看起來(lái)更美觀# key="華為"      #從查詢一個(gè)company開始，加for循環(huán)，查詢多個(gè)企業(yè)lis=["華大基因","知乎","中國(guó)國(guó)家地理雜志社","中山大學(xué)"]for li in lis:    url="https://www.tianyancha.com/search?key="+quote(li)    #外部的url，進(jìn)入要查詢的企業(yè)的頁(yè)面    headers={    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52",    "Cookie":"aliyungf_tc=dcee015d38cbc96ad677b845beb17fecf55dfe7bf358e85e3369cb76604d9baa; acw_tc=76b20f8416320655286472268e3b9f535aea9900bb46a056331a772cc85ae5; csrfToken=ZguchyQQdbrVckAuPOspK7Au; jsid=SEO-BING-ALL-SY-000001; TYCID=c06be740195e11ec9d547d348b283d0a; ssuid=5077711456; sajssdk_2015_cross_new_user=1; bannerFlag=true; Hm_lvt_e92c8d65d92d534b0fc290df538b4758=1632065532; _ga=GA1.2.1408096384.1632065532; _gid=GA1.2.1583561769.1632065532; searchSessionId=1632065541.64432166; relatedHumanSearchGraphId=17066311; relatedHumanSearchGraphId.sig=TwOcKyCjpeHTjV7s49eE4L_3pHpB94avftKmZJek8gk; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2218438709046%22%2C%22first_id%22%3A%2217bfeafae43ba9-005e2376b1979-57341f44-1382400-17bfeafae44afa%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%7D%2C%22%24device_id%22%3A%2217bfeafae43ba9-005e2376b1979-57341f44-1382400-17bfeafae44afa%22%7D; tyc-user-info={%22state%22:%220%22%2C%22vipManager%22:%220%22%2C%22mobile%22:%2218438709046%22}; tyc-user-info-save-time=1632066453345; auth_token=eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxODQzODcwOTA0NiIsImlhdCI6MTYzMjA2NjQ1MiwiZXhwIjoxNjYzNjAyNDUyfQ.XYcBGbzr1qThhAZp9exmEKjWg1Co6_cwyZgmfCNO-9Nrp_KSyyqAr--UnxUhLaaX7x6jNmoX3SACJDL31RocNA; tyc-user-phone=%255B%252218438709046%2522%255D; Hm_lpvt_e92c8d65d92d534b0fc290df538b4758=1632066573"    }                                         #這里的Cookie需要是用戶登陸后的才可以用，否則需要輸入驗(yàn)證碼，所以先登陸，再獲取Cookie    html=requests.get(url,headers=headers)    soup=BeautifulSoup(html.text,"html.parser")    innerUrl=soup.select_one("a.name")["href"]       #只需要的一個(gè)所以用select_one()來(lái)爬取一個(gè)內(nèi)部的url#獲取內(nèi)部url即此處的href    # print("獲取內(nèi)部URL：", innerUrl)    innerHtml=requests.get(innerUrl,headers=headers)  #這里的headers不需要變    soup=BeautifulSoup(innerHtml.text,"html.parser")    result=soup.select(".table.-striped-col tbody tr td")    for r in result:    #     with open("company.text","a",encoding="utf8") as f:      #方法一：將爬到的內(nèi)容存儲(chǔ)在text文本中    #         f.write(r.text+"/n")    # with open("company.text","a",encoding="utf8") as f:    #     f.write("/n")        r_lis=[]                                             #方法二：將爬到的內(nèi)容儲(chǔ)存在csv文件中        r_lis.append(r.text)        with open("company.csv","a",newline="",encoding="utf-8-sig") as csvfile:            spamwriter=csv.writer(csvfile, delimiter=",")            spamwriter.writerow(r_lis)print("已完成！")

這是本人的第一篇博文，這些內(nèi)容主要是對(duì)我自己學(xué)習(xí)爬蟲的記錄和分享，如果代碼中有什么問題的感謝各路大佬指正?。。?/p>

云服務(wù)器 GPU云服務(wù)器寫入csv亂碼 js寫入數(shù)據(jù)到csv文件服務(wù)器寫入數(shù)據(jù)庫(kù)亂碼 js讀取csv文件數(shù)據(jù)格式

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/119993.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

zone

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

操作符詳解（一）（跑路筆記）

閱讀 3482·2021-11-15 11:39
Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

閱讀 1682·2021-09-22 10:02
馬斯克：特斯拉自動(dòng)駕駛系統(tǒng)的目標(biāo)是比人類駕駛安全 10 倍

閱讀 1368·2021-08-27 16:24
HTML5行業(yè)現(xiàn)狀與未來(lái) - 2016年終大盤點(diǎn)

閱讀 3671·2019-08-30 15:52
element ui table render-header自定義表頭信息使用

閱讀 3482·2019-08-29 16:20
三角形：它是如何工作的

閱讀 876·2019-08-28 18:12
聊聊在javascript中數(shù)組的使用

閱讀 612·2019-08-26 18:27
JavaScript繼承

閱讀 772·2019-08-26 13:32

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

相關(guān)文章

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---31、數(shù)據(jù)存儲(chǔ)：文件存儲(chǔ)

一次爬蟲實(shí)踐記錄

**多線程+代理池爬取天天基金網(wǎng)、股票數(shù)據(jù)(無(wú)需使用爬蟲框架)**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

自制簡(jiǎn)單的詩(shī)歌搜索系統(tǒng)

發(fā)表評(píng)論

0條評(píng)論

zone

男|高級(jí)講師

TA的文章

操作符詳解（一）（跑路筆記）