如何在python中讀取csv檔案并回傳外部表查詢？-有解無憂

我正在嘗試讀取 csv 檔案并通過資料框創建外部表查詢。請幫助我如何才能實作我的目標？

例子：

假設我有這樣的df-

df = pd.DataFrame({'A': [1,2,3], 'B': [True, False, False], 'C': ['a', 'b', 'c']})
print(df.dtypes)

A     int64
B      bool
C    object
dtype: object

我必須根據資料框提供的資訊創建外部表-

CREATE EXTERNAL TABLE schema_name.table_name
(
A INT,
B VARCHAR(100),
C VARCHAR(100)
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES 
(
'separatorChar' = ','
)
LOCATION 'location'
TABLE PROPERTIES ('skip.header.line.count'='1') ;

轉換應該是這樣的 -

int64  - INT,
float64 - FLOAT,
object - VARCHAR(100),
bool - VARCHAR(10),
date - TIMESTAMP

請幫助我如何創建外部表？

uj5u.com熱心網友回復：

SQL query是普通字串，因此您可以將其格式化為任何其他字串。

您可以使用for-loop withdf.dtypes.items()來獲取nameanddtype并轉換為預期的行A INT和B VARCHAR(100)and C VARCHAR(100)。

你可以使用字典來轉換它

convert = {
    "int64": "INT",
    "float64": "FLOAT",
    "object": "VARCHAR(100)",
    "bool": "VARCHAR(10)",
    "date": "TIMESTAMP",    
}

稍后您可以使用joinwith",\n"在除一行之外的所有行中添加逗號。

CREATE ... 最后，您可以使用f-string或將其放入字串中.format()

import pandas as pd

df = pd.DataFrame({'A': [1,2,3], 'B': [True, False, False], 'C': ['a', 'b', 'c']})
#print(df.dtypes)

convert = {
    "int64": "INT",
    "float64": "FLOAT",
    "object": "VARCHAR(100)",
    "bool": "VARCHAR(10)",
    "date": "TIMESTAMP",    
}    
    
all_lines = []    
for name, dtype in df.dtypes.items():
    dtype = str(dtype)
    line  = f'{name} {convert[dtype]}'
    #print(dtype, "=>", line)
    all_lines.append( line )
    
text = ",\n".join(all_lines)

print(f"""CREATE EXTERNAL TABLE schema_name.table_name
(
{text}
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES 
(
'separatorChar' = ','
)
LOCATION 'location'
TABLE PROPERTIES ('skip.header.line.count'='1') ;""")

結果：

CREATE EXTERNAL TABLE schema_name.table_name
(
A INT,
B VARCHAR(10),
C VARCHAR(100)
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES 
(
'separatorChar' = ','
)
LOCATION 'location'
TABLE PROPERTIES ('skip.header.line.count'='1') ;

uj5u.com熱心網友回復：

不確定你的目標是什么。您是否嘗試從現有的 pandas 資料框生成 sql 查詢？看起來像一個簡單的任務 - 迭代資料框列，生成查詢的相應部分并使用字串格式構建結果。

考慮以下可能的實作：

import pandas as pd

# pandas types to sql types mapping
TYPE_MAP = {
    'object': 'VARCHAR({})',
    'int64': 'INT',
    'float64': 'FLOAT',
    'bool': 'VARCHAR({})',
    'datetime64': 'TIMESTAMP',
    'timedelta[ns]': 'NotImplemented',
    'category': 'NotImplemented'}

def create_query(data, data_config):
    query_template = """CREATE EXTERNAL TABLE schema_name.table_name
(
{}
) parameters
parameters"""

    query_columns = list()
    for col in data:
        col_type = TYPE_MAP[str(data[col].dtype)]
        if col_type.startswith('VARCHAR'):
            # compute max_length from data
            # col_type = col_type.format(data[col].astype('str').str.len().max())
            # or use pre-defined values
            col_type = col_type.format(data_config['varchar_length'][col])
        query_columns.append(f"{col} {col_type}")

    return query_template.format(',\n'.join(query_columns))


if __name__ == '__main__':

    df = pd.DataFrame({'A': [1, 2, 3], 'B': [True, False, False], 'C': ['a', 'b', 'c']})
    cfg = {'varchar_length': {'B': 90, 'C': 110}}
    query = create_query(df, cfg)
    print(query)

結果是：

CREATE EXTERNAL TABLE schema_name.table_name
(
A INT,
B VARCHAR(90),
C VARCHAR(110)
) parameters
parameters

轉載請註明出處，本文鏈接：https://www.uj5u.com/gongcheng/453423.html

標籤：Python python-3.x 熊猫数据框外部表

上一篇：data.frame中列的tibble串列

下一篇：根據索引串列獲取df中列的值