| 
 | 
 
 
 
繼上篇python 利用 BeautifulSoup4 網路爬蟲抓網頁標題 
這篇說明抓取JSON 網頁 
以https://medium.com為例 
python JSON 網路爬蟲  
 
 
 
完整代碼 
- import urllib.request as req
 
 - #網址
 
 - url="https://medium.com/_/api/home-feed"
 
 - #User-Agent 建立一個request物件,附加 Request Headers的資訊 ,看起來是 一般人登入
 
 - request=req.Request(url,headers={
 
 -     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
 
 -     ,"cookie":"over18=1"
 
 - })
 
 - with req.urlopen(request) as response:
 
 -     data=response.read().decode("utf-8")
 
 - #print(data)
 
  
- # 解析Json,抓取文章標題內容
 
 - import json
 
 - data=data.replace("])}while(1);</x>","")  #這段式網頁撰寫人留下的標記,取代為空
 
 - data=json.loads(data) #把原始的JSON資料解析成字典/列表的表示形式
 
 - #print(data)
 
 - # 取得JSON資料中的文章標題
 
 - posts=data["payload"]["references"]["Post"]
 
 - for key in posts:
 
 -     post=posts[key]
 
 -     print(post["title"])
 
  複製代碼 
 
在chrome瀏覽器壓F12或開發者模式看到 
NETWORK裡的XHR選項 
python JSON 網路爬蟲  
 
 
 
網頁設計,網站架設 ,網路行銷,網頁優化,SEO - NetYea 網頁設計 
 |   
 
 
 
 |