我需要在此網站上洗掉所有文章、文章標題和段落:https ://portaljuridic.gencat.cat/eli/es-ct/l/2014/12/29/19
問題是我嘗試了一些 div、h3 或 p 沒有任何反應添加影像。
from bs4 import BeautifulSoup
import lxml
import pandas as pd
from tqdm import tqdm_notebook
def parse_url(url):
response = requests.get(url)
content = response.content
parsed_response = BeautifulSoup(content, "lxml")
return parsed_response
url = "https://portaljuridic.gencat.cat/eli/es-ct/l/2014/12/29/19"
soup = parse_url(url)
article = soup.find("div", {"class":"article-document"})
article
它似乎是一個帶有javascript的網站,但我不知道如何獲取它。
uj5u.com熱心網友回復:
該網站執行 3 個 API 呼叫以獲取資料。
下面的代碼執行相同的操作并獲取資料。
(在瀏覽器中執行 F12 -> Network -> XHR 并查看 API 呼叫)
import requests
payload1 = {'language':'ca','documentId':680124}
r1 = requests.post('https://portaldogc.gencat.cat/eadop-rest/api/pjc/getListTraceabilityStandard',data = payload1)
if r1.status_code == 200:
print(r1.json())
print('------------------')
payload2 = {'documentId':680124,'orderBy':'DESC','language':'ca','traceability':'02'}
r2 = requests.post('https://portaldogc.gencat.cat/eadop-rest/api/pjc/getListValidityByDocument',data = payload2)
if r2.status_code == 200:
print(r2.json())
print('------------------')
payload3 = {'documentId': 680124,'traceabilityStandard': '02','language': 'ca'}
r3 = requests.post('https://portaldogc.gencat.cat/eadop-rest/api/pjc/documentPJC',data=payload3)
if r3.status_code == 200:
print(r3.json())
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/317051.html
標籤:javascript Python 网页抓取
上一篇:將復雜的javascript物件轉換為JSONnodejs
下一篇:需要網頁抓取授權
