使用BeautifulSoup抓取URL回圈-有解無憂

我想在同一個網站 societe.com 的不同頁面上洗掉資訊，我有幾個問題。

首先這里是我設法做的代碼，我有點新手我承認

我只放了 2 個 URL 來查看回圈是否有效以及一些資訊，當一切正常時我可以添加一些

urls = ["https://www.societe.com/societe/decathlon-france-500569405.html","https://www.societe.com/societe/go-sport-312193899.html"]
for url in urls:
    response = requests.get(url, headers = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'})
    soup = BeautifulSoup(response.text, "html.parser")
    numrcs = soup.find("td", class_="numdisplay")
    nomcommercial = soup.find("td", class_="break-word")
    print(nomcommercial.text)
    print(numrcs.text.strip())
    numsiret = soup.select('div[id^=siret_number]')
    for div in numsiret:
        print(div.text.strip())
    formejuri = soup.select('div[id^=catjur-histo-description]')
    for div in formejuri:
        print(div.text.strip())
    infosend = {
        'numrcs': numrcs,
        'nomcommercial':nomcommercial,
        'numsiret':numsiret,
        'formejuri':formejuri
    }
    tableau.append(infosend)
print(tableau)

my_infos = ['Numéro RCS',  'Numéro Siret ','Forme Juridique']

my_columns = [
    np.tile(np.array(my_infos), len(nomcommercial))
]

df = pd.DataFrame( tableau,index=nomcommercial, columns=my_columns)
df

當我運行回圈時，我得到了正確的資訊，例如

DECATHLON FRANCE
Lille Metropole B 500569405
50056940503239
SASU Société par actions simplifiée à associé unique

但我想把所有這些資訊放在一個表中，但我真的不能，只有最后一家公司出現，資料沒有意義我試圖按照教程沒有成功。

如果你能幫助我，我會很高興

uj5u.com熱心網友回復：

要獲取有關公司的資料，您可以使用下一個示例：

import requests
import pandas as pd
from bs4 import BeautifulSoup


urls = [
    "https://www.societe.com/societe/decathlon-france-500569405.html",
    "https://www.societe.com/societe/go-sport-312193899.html",
]

headers = {
    "User-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"
}

data = []
for url in urls:
    soup = BeautifulSoup(
        requests.get(url, headers=headers).content, "html.parser"
    )
    title = soup.select_one("#identite_deno").get_text(strip=True)
    rcs = soup.select_one('td:-soup-contains("Numéro RCS")   td').get_text(
        strip=True
    )
    siret_number = soup.select_one("#siret_number").get_text(strip=True)
    form = soup.select_one("#catjur-histo-description").get_text(strip=True)

    data.append([title, url, rcs, siret_number, form])


df = pd.DataFrame(
    data,
    columns=["Title", "URL", "Numéro RCS", "Numéro Siret", "Forme Juridique"],
)
print(df.to_markdown())

印刷：

	標題	網址	數字 RCS	數字Siret	法律形式
0	迪卡儂法國（DECATHLON DIRECTION GENERALE 法國）	https://www.societe.com/societe/decathlon-france-500569405.html	里爾大都會 B 500569405	50056940503239	SASU Société par actions simplifiée à associé unique
1	去運動	https://www.societe.com/societe/go-sport-312193899.html	格勒諾布爾 B 312193899	31219389900191	Société par actions simplifiee

轉載請註明出處，本文鏈接：https://www.uj5u.com/yidong/471948.html

標籤：Python 循环网页抓取网址美丽的汤

上一篇：如何基于 ZEGO SDK 實作 Android 通話質量監測

下一篇：內容遷移后更新URL的正則運算式