資料字典
分析資料首先要搞清楚資料欄位的含義,
博主費勁千辛萬苦,終于在FAA上找到了各種欄位的解釋
資料來源:ACAIS(航空公司活動資訊系統-FFA(美國聯邦航空管理局))
https://www.faa.gov/airports/planning_capacity/passenger_allcargo_stats/passenger/previous_years/
選用表:cy18-all-enplanements.xlsx
| 欄位 | 解釋 |
|---|---|
| Rank | 按旅客人數的排名(降序) |
| RO | 美國的區域(縮寫) Region |
| ST | 美國的洲的編碼(State Code) |
| Locid | 機場縮寫 |
| City | 機場所在的城市 |
| Airport Name | 機場名稱 |
| S/L | 服務水平(Service Level)【型別:CS、P、GA】 |
| Hub | 樞紐型別(Hub Type(Large hub,Medium hub,Small hub,Non-hub)) |
| CY 18 Enplanements | 2018年登機的旅客 |
| CY 17 Enplanements | 2017年登機的旅客 |
| % Change | 2017年~2018年旅客人數的的變化率 |
說明:
FAA將旅客吞吐量占全美吞吐總量1%以上的機場定義為大型樞紐(primary large hub),旅客吞吐量占全美吞吐總量0.25%-1%的機場定義為中型樞紐(primary medium hub),旅客吞吐量占全美吞吐總量0.05-0.25%的機場定義為小型樞紐(primary small hub),旅客吞吐量占全美吞吐總量達到1萬人次,但低于旅客吞吐量占全美吞吐總量0.05的機場定義為主要非樞紐機場(primary nonhub),年客運量至少2500人次,但不超過10000人次,定義為非主要機場(non-primary nonhub),
現在已經知道了總表的每個欄位的含義,接下來就是把原來的表進行拆分,變成一個個的子表,然后從不同方向去分析這些表,
待處理的表
我們可以將所需要的資料抽離出來,變成視圖,這樣方便操作
不同城市-不同機場-2017、2018乘客的人數(city_airportID_peoples.xls)
create view v_city_airportID_peoples
as
select city,Locid airportID, CY_17_Enplanements,CY_18_Enplanements
from t_passengerInfo
樞紐型別-2017、2018乘客的人數(HubType_peoples.xls)
create view v_HubType_peoples
as
select isnull(Hub,'未知') HubType,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by Hub
不同機場2017、2018的游客人數(airportID_peoples.xls)
create view v_airportID_peoples
as
select Locid airportID,CY_17_Enplanements,CY_18_Enplanements
from t_passengerInfo
美國不同區域2017、2018游客的分布(ro_peoples.xls)
create view v_ro_peoples
as
select RO,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by RO
美國不同洲2017、2018游客的分布(st_peoples.xls)
create view v_st_peoples
as
select ST,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by ST
不同機場的服務水平(airportID_serviceLevel.xls)
create view v_airportID_serviceLevel
as
select Locid airportID,S_L serviceLevel from t_passengerInfo
不同機場的樞紐型別(airportID_HubType.xls)
create view v_airport_HubType
as
select Locid airportID,Hub HubType from t_passengerInfo where Hub is not null
表字典

| 表名 | 含義 |
|---|---|
| city_airportID_peoples.xls | 不同城市-不同機場-2017、2018乘客的人數 |
| HubType_peoples.xls | 樞紐型別-2017、2018乘客的人數 |
| airportID_peoples.xls | 不同機場2017、2018的游客人數 |
| ro_peoples.xls | 美國不同區域2017、2018游客的分布 |
| st_peoples.xls | 美國不同洲2017、2018游客的分布 |
| airportID_serviceLevel.xls | 不同機場的服務水平 |
| airportID_HubType.xls | 不同機場的樞紐型別 |
最后,我們可以通過Pandas包的函式進行讀表操作
import pandas as pd
# import xlrd
# 每個區域的2017、2018的游客人數
# airportID_serviceLevel.xls,airportID_serviceLevel
# airport_HubType.xls,airport_HubType
# city_airportID_peoples.xls,city_airportID_peoples
df4 = pd.read_excel('./DataResource/HubType_peoples.xls', 'HubType_peoples')
print(df4)
結果如下:

到這里,對資料的整理部分就結束了,后期就開始學習統計學的基礎知識了!
具體正式提交報告還有1個月,迫在眉睫啊!
【git原始碼地址】:https://gitee.com/sienhao/data-analysis-python.git
(看了一下自己之前的準備作業,成就感滿滿,期待出成果)

求三連!!!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/229122.html
標籤:其他
上一篇:Centos下安裝oneAPI基礎工具包(Intel? oneAPI Base Toolkit)和高性能計算工具包(Intel? oneAPI HPC Toolkit)
下一篇:南京有哪些“牛批”的互聯網公司?
