|
繼上篇python 利用 BeautifulSoup4 網路爬蟲抓網頁標題
這篇說明抓取JSON 網頁
以https://medium.com為例
python JSON 網路爬蟲
完整代碼
- import urllib.request as req
- #網址
- url="https://medium.com/_/api/home-feed"
- #User-Agent 建立一個request物件,附加 Request Headers的資訊 ,看起來是 一般人登入
- request=req.Request(url,headers={
- "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
- ,"cookie":"over18=1"
- })
- with req.urlopen(request) as response:
- data=response.read().decode("utf-8")
- #print(data)
- # 解析Json,抓取文章標題內容
- import json
- data=data.replace("])}while(1);</x>","") #這段式網頁撰寫人留下的標記,取代為空
- data=json.loads(data) #把原始的JSON資料解析成字典/列表的表示形式
- #print(data)
- # 取得JSON資料中的文章標題
- posts=data["payload"]["references"]["Post"]
- for key in posts:
- post=posts[key]
- print(post["title"])
複製代碼
在chrome瀏覽器壓F12或開發者模式看到
NETWORK裡的XHR選項
python JSON 網路爬蟲
網頁設計,網站架設 ,網路行銷,網頁優化,SEO - NetYea 網頁設計
|
|