TShopping

 找回密碼
 註冊
搜索
查看: 163|回復: 0

[教學] python 利用 JSON 網路爬蟲抓網頁標題

[複製鏈接]
發表於 2020-10-8 15:50:35 | 顯示全部樓層 |閱讀模式
 
Push to Facebook Push to Plurk  

繼上篇python 利用 BeautifulSoup4 網路爬蟲抓網頁標題
這篇說明抓取JSON 網頁
https://medium.com為例

python JSON 網路爬蟲

python JSON 網路爬蟲


完整代碼
  1. import urllib.request as req
  2. #網址
  3. url="https://medium.com/_/api/home-feed"
  4. #User-Agent 建立一個request物件,附加 Request Headers的資訊 ,看起來是 一般人登入
  5. request=req.Request(url,headers={
  6.     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
  7.     ,"cookie":"over18=1"
  8. })
  9. with req.urlopen(request) as response:
  10.     data=response.read().decode("utf-8")
  11. #print(data)

  12. # 解析Json,抓取文章標題內容
  13. import json
  14. data=data.replace("])}while(1);</x>","")  #這段式網頁撰寫人留下的標記,取代為空
  15. data=json.loads(data) #把原始的JSON資料解析成字典/列表的表示形式
  16. #print(data)
  17. # 取得JSON資料中的文章標題
  18. posts=data["payload"]["references"]["Post"]
  19. for key in posts:
  20.     post=posts[key]
  21.     print(post["title"])
複製代碼


在chrome瀏覽器壓F12或開發者模式看到
NETWORK裡的XHR選項

python JSON 網路爬蟲

python JSON 網路爬蟲


網頁設計,網站架設 ,網路行銷,網頁優化,SEO - NetYea 網頁設計

 

臉書網友討論
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則



Archiver|手機版|小黑屋|免責聲明|TShopping

GMT+8, 2020-10-22 23:00 , Processed in 0.056751 second(s), 24 queries .

本論壇言論純屬發表者個人意見,與 TShopping綜合論壇 立場無關 如有意見侵犯了您的權益 請寫信聯絡我們。

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表