如何使用BeautifulSoup從HTML表格中抓取圖示-有解無憂

我正在嘗試在markets.ft 網站上抓取一張表格，不幸的是其中有許多圖示（表格：'Lipper Leader Scorecard' - https://markets.ft.com/data/funds/tearsheet/ratings? s=LU0526609390:EUR）。

當我使用 BeautifulSoup 時，我可以抓取表格，但所有值都是 NaN。

有沒有辦法刮掉表格內的圖示并將它們轉換為數字？

我的代碼是：

import requests
import pandas as pd
from bs4 import BeautifulSoup

id_list = ['LU0526609390:EUR','IE00BHBX0Z19:EUR', 'LU1076093779:EUR', 'LU1116896363:EUR', 'LU1116896876:EUR']
urls = ['https://markets.ft.com/data/funds/tearsheet/ratings?s='  x for x in id_list]

dfs =[]
for url in urls:
    r = requests.get(url).content
    soup = BeautifulSoup(r, 'html.parser')
    # Some funds in the list do not have any data.
    try:
     table = soup.find_all('table')[0]
     print(table)
    except Exception:
        continue 
    df = pd.read_html(str(table), index_col=0)[0]
    dfs.append(df)

print(dfs)

基金所需的輸出（LU0526609390）：

                Total return  Consistent return  Preservation  Expense
Overall rating           3                3           5            5
3 year rating            3                3           5            5
5 year rating            2                3           5            5

uj5u.com熱心網友回復：

您可以使用字典將類值轉換為相應的整數

import requests, bs4
import pandas as pd
from io import StringIO

options = {
    'mod-sprite-lipper-1': 1,
    'mod-sprite-lipper-2': 2,
    'mod-sprite-lipper-3': 3,
    'mod-sprite-lipper-4': 4,
    'mod-sprite-lipper-5': 5,
}

soup = bs4.BeautifulSoup(requests.get(
    url= 'https://markets.ft.com/data/funds/tearsheet/ratings?s=LU0526609390:EUR'
).content, 'html.parser').find('table', {'class': 'mod-ui-table'})


header = [x.text.strip() for x in soup.find('thead').find_all('th')]

data = [header]   [
    [x.find('td').text.strip()]   [
        options[e.find('i') .get('class')[-1]]
        for e in x.find_all('td')[1:]
    ]
    for x in soup.find('tbody').find_all('tr')
]

df = pd.read_csv(
        StringIO('\n'.join([','.join(str(x) for x in xs) for xs in data])),
        index_col = 0,
        )

print(df)

轉載請註明出處，本文鏈接：https://www.uj5u.com/gongcheng/366374.html

標籤：Python 熊猫网页抓取美汤图标

上一篇：比較特定行中的列值

下一篇：如何使用開始值和結束值填充缺失值？