我使用 Python 從 BigQyery 中提取了一個 SQL 查詢結果,并將結果存盤在資料框中,其中一個欄位event_params已保存為集合串列,如下所示
[{'key': 'update_with_analytics', 'value': {'string_value': None, 'int_value': 0.0, 'float_value': None, 'double_value': None}}
{'key': 'firebase_event_origin', 'value': {'string_value': 'auto', 'int_value': None, 'float_value': None, 'double_value': None}}
{'key': 'firebase_conversion', 'value': {'string_value': None, 'int_value': 1.0, 'float_value': None, 'double_value': None}}
{'key': 'previous_first_open_count', 'value': {'string_value': None, 'int_value': 0.0, 'float_value': None, 'double_value': None}}]
我想將上述設定的值存盤在幾個列中,如下所示:
event_params.key| event_params.value.string_value| event_params.value.int_value| event_params.value.float_value|event_params.value.double_value
這是我的python代碼
import google.oauth2.service_account as service_account
from google.cloud import bigquery
import datetime
from time import perf_counter
import sqlalchemy
import pandas as pd
today = datetime.datetime.today()
yesterday = today - datetime.timedelta(days=2)
numdays = 2
dateList = []
gcp_project = '***'
bqtable = 'analytics_###'
client = bigquery.Client(project=gcp_project,credentials=credentials)
table_ref = client.dataset(bqtable)
for x in range (0, numdays):
date = yesterday - datetime.timedelta(days = x)
date_str = date.strftime('%Y%m%d')
dateList.append(date_str)
df = pd.DataFrame()
for i in dateList:
query = f"""SELECT * FROM `***.analytics_####.events_{i}`"""
def bq2bi(sql):
query = client.query(sql)
query_results = query.result()
return query_results.to_dataframe()
df = pd.concat([df,bq2bi(query)])
main_df_2 = df.applymap(str)
print(main_df_2)
try:
main_df_2.to_sql(con=con, name='Firebase', if_exists='replace')
except:
print('database failed to update')
else:
print("database updated")
Stop = perf_counter()
print("Script ran in",round(Stop-Start,2),"seconds")
如果有更好的方法從 bigquery 中提取資料而不將其轉換為集合串列,請提供建議!
uj5u.com熱心網友回復:
您可以在查詢中使用 bigquery 中的unnest()函式來展平資料集。
您還可以使用_table_suffix將日期傳遞給 bigquery
查詢看起來像:
select
events.*,
params.*
from
`project_id.analytics.events_*` as events,
unnest(event_params) as params
where
_table_suffix >= format_date("%Y%m%d", date_add(current_date('Australia/Sydney'), INTERVAL -7 day))
解釋:
該unnest()功能將更改拉出event_params到單獨的列中。從看起來像:
event_date | event_params
2022-01-01 | [{ key: 'update_with_analytics', ...},{key: 'firebase_conversion', ...}]
到
event_date | key | ...
2022-01-01 | update_with_analytics' | ...
2022-01-01 | firebase_conversion | ...
允許_table_suffix您一次查詢多個表。您將擁有諸如events_20220101 events_20220102etc 之類的表名(每個日期一個)。您可以在表名中使用通配符來處理多個日期。所以events_202201*會找到 2022 年 1 月的所有日子并events_*匹配所有表格。
當您在表名中使用通配符時,您可以訪問_table_suffix包含表名匹配部分的虛擬列
上面的例子然后使用一些日期函式來提取過去 7 天的資料
最后一點,您可能希望編輯查詢以僅根據查詢的資料量回傳您需要的列作為 bigquery 費用。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/413411.html
標籤:
下一篇:從檔案串列中提取資訊
