嘗試更新代碼以在Selenium(Python)中回傳HTML值-有解無憂

我正在使用 Selenium 來抓取一些 Facebook 群組資訊：

    with open("groups.txt") as file:
        lines = file.readlines()
    total = len(lines)
    count = 1
    for line in lines:

        group_id = line.strip().split(".com/")[1]
        if "groups" not in line:
            new_line = "https://www.facebook.com/groups/"   str(group_id)   "/about"
        else:
            new_line = line.strip()   '/about'
        sleep(2)
        driver.get(new_line)
        page_source = driver.page_source
        page_id = page_source.split('"groupID":"')[1].split('","')[0]
        page_followers = page_source.split('<!-- --> total members')[0][-15:]
        page_followers = str(page_followers.split('>')[1]).replace(',', '')
        page_name = page_source.split("</title>")[0].split("<title>")[1]

        df1.loc[len(df1)] = [line.strip(), 'https://www.facebook.com/'   str(page_id), page_followers, page_name]
        print(f"{count}/{total}", line.strip(), 'https://www.facebook.com/'   str(page_id), page_followers)
        count  = 1
    df1.to_csv("groups.csv", encoding='utf-8', index=False, header=False)

Facebook 最近更新了一些內容，因此此代碼無法回傳群組成員的數量。

這些是相關的行：

page_followers = page_source.split('<!-- --> total members')[0][-15:]
page_followers = str(page_followers.split('>')[1]).replace(',', '')

以查看源：https ://www.facebook.com/groups/764385144252353/about為例，我發現了兩個“總成員”實體。是否有可能獲得一些關于我應該改變什么才能抓住這個數字的建議？

uj5u.com熱心網友回復：

新的

此代碼提取成員的確切數量并將其從字串轉換為整數

driver.get('https://www.facebook.com/groups/410943193806268/about')
members = driver.find_element(By.XPATH, "//span[contains(text(), 'total members')]").text
members = int(''.join(i for i in members if i.isdigit()))
print(members)

輸出

老的

我建議不要page_source用來提取這種資料，而是find_element以這種方式使用

driver.find_element(By.CSS_SELECTOR, "a[href*='members']").text.split()[0]

輸出

'186'

說明：a[href*='members']搜索具有包含字串的屬性的a元素（例如）（例如）<a class='test'>...</a>hrefmembers<a href="something-members-test">...</a>

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/480839.html

標籤：Python html 硒

上一篇：如何避免imperva機器人檢測？

下一篇：pythonseleniumsendkey在chrome中不起作用