python 利用 JSON 網路爬蟲抓網頁標題

woff · 發表於 2020-10-8 15:50:35

python JSON 網路爬蟲

完整代碼

import urllib.request as req
#網址
url="https://medium.com/_/api/home-feed"
#User-Agent 建立一個request物件，附加 Request Headers的資訊 ,看起來是一般人登入
request=req.Request(url,headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
,"cookie":"over18=1"
})
with req.urlopen(request) as response:
data=response.read().decode("utf-8")
#print(data)
# 解析Json，抓取文章標題內容
import json
data=data.replace("])}while(1);</x>","") #這段式網頁撰寫人留下的標記，取代為空
data=json.loads(data) #把原始的JSON資料解析成字典/列表的表示形式
#print(data)
# 取得JSON資料中的文章標題
posts=data["payload"]["references"]["Post"]
for key in posts:
post=posts[key]
print(post["title"])

複製代碼

在chrome瀏覽器壓F12或開發者模式看到
NETWORK裡的XHR選項

python JSON 網路爬蟲

網頁設計,網站架設 ,網路行銷,網頁優化,SEO - NetYea 網頁設計

賬號		自動登錄	找回密碼
密碼			註冊

[教學] python 利用 JSON 網路爬蟲抓網頁標題