使用pandas的.data、.names和.test檔案中的資料框-有解無憂

我正在嘗試處理成人資料集，可在此鏈接上找到。

目前我被困住了，因為我能夠抓取的資料是我不完全了解的格式。因此，下載檔案后，我無法正確獲取帶有下載檔案的 pandas 資料框。

我可以使用以下鏈接從 UCI 下載 3 個檔案：

data = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'  
names = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names'
test = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test'

它們分別是格式.data，.names和.test。我一直使用.csv格式，因此我對這些有點困惑。

如何獲得帶有訓練資料（= 資料名稱）的 pandas 資料框和帶有測驗資料（= 測驗名稱）的 pandas 資料框？

此代碼將無法完全作業：

train_df = pd.read_csv(r'./adult.data', header=None)
train_df.head()  # WORKING (without column names)

df_names = df = pd.read_csv(r'./adult.names')
df_names.head()  # ERROR

test_df = pd.read_csv(r'./adult.test')
test_df.head()  # ERROR

uj5u.com熱心網友回復：

采用：

import pandas as pd
import re

# adult.names
with open('adult.names') as fp:
    cols = []
    for line in fp:
        sre = re.match(r'(?P<colname>[a-z\-] ):.*\.', line)
        if sre:
            cols.append(sre.group('colname'))
    cols.append('label')

# Python > 3.8, walrus operator
# with open('adult.names') as fp:
#     cols = [sre.group('colname') for line in fp
#                 if (sre := re.match(r'(?P<colname>[a-z\-] ):.*\.', line))]
#     cols.append('label')

options = {'header': None, 'names': cols, 'skipinitialspace': True}

# adult.data
train_df = pd.read_csv('adult.data', **options)

# adult.test
test_df = pd.read_csv('adult.test', skiprows=1, **options)
test_df['label'] = test_df['label'].str.rstrip('.')

uj5u.com熱心網友回復：

您可以像這樣使用 pandas 來實作這一點：

import pandas as pd
# reading csv files
data =  pd.read_csv('adult.data', sep=",")
print(data)


names =  pd.read_csv('adult.names', sep="\t")
print(names)

test =  pd.read_csv('adult.test', sep="\t")
print(test)

轉載請註明出處，本文鏈接：https://www.uj5u.com/caozuo/444471.html

標籤：Python 熊猫数据框进口 uci

上一篇：在R中使用rep()時出現問題。“次”引數無效

下一篇：從串列中提取字串并將它們放入資料框中