資料采集習題參考答案，會持續更新，點個關注防丟失，

創作不易，一鍵三連給博主一個支持唄，

為了方便查找，已按照頭歌重新排版，朋友們按照頭歌所屬門類查找實訓哦，該篇為Pandas，

文章目錄

實訓一：Pandas初體驗

第一關：了解資料處理物件--Series

編程要求

Pandas中的資料結構

第一關答案

第二關：了解資料處理物件-DataFrame

編程要求

相關知識

第二關答案

第三關：讀取CSV格式資料

編程要求

相關知識

第三關答案

第四關：資料的基本操作——排序

編程要求

相關知識

第四關答案

第五關：資料的基本操作——洗掉

編程要求

相關知識

第五關答案

第六關：資料的基本操作——算術運算

編程要求

相關知識

第六關答案

第七關：資料的基本操作——去重

編程要求

相關知識

第七關答案

第八關：層次化索引

編程要求

相關知識

第八關答案

實訓一：Pandas初體驗

第一關：了解資料處理物件--Series

編程要求

創建一個名為series_a的series陣列，當中值為[1,2,5,7],對應的索引為['nu', 'li', 'xue', 'xi']；

創建一個名為dict_a的字典，字典中包含如下內容{'ting':1, 'shuo':2, 'du':32, 'xie':44}；

將dict_a字典轉化成名為series_b的series陣列，

相關知識

Pandas是為了解決資料分析任務而創建的，納入了大量的庫和標準資料模型，提供了高效地操作大型資料集所需的工具，對于Pandas包，在Python中常見的匯入方法如下：

from pandas import Series,DataFrame

import pandas as pd

Pandas中的資料結構

Series: 一維陣列，類似于Python中的基本資料結構list，區別是Series只允許存盤相同的資料型別，這樣可以更有效的使用記憶體，提高運算效率，就像資料庫中的列資料；
DataFrame: 二維的表格型資料結構，很多功能與R中的data.frame類似，可以將DataFrame理解為Series的容器；
Panel：三維的陣列，可以理解為DataFrame的容器，

了解Series

為了開始使用Pandas，我們必需熟悉它的兩個重要的資料結構：Series 和DataFrame，雖然它們不是每一個問題的通用解決方案，但可以提供一個堅實的，易于使用的大多數應用程式的基礎， Series是一個一維的類似的陣列物件，包含一個陣列的資料（任何NumPy的資料型別）和一個與陣列關聯的資料標簽，被叫做索引，最簡單的Series是由一個陣列的資料構成：

In [1]:obj=Series([4,7,-5,3])
In [2]:obj
Out[2]:
0 4
1 7
2 -5
3 3

Series的互動式顯示的字串表示形式是索引在左邊，值在右邊，因為我們沒有給資料指定索引，一個包含整數0到N-1這里N是資料的長度）的默認索引被創建，你可以分別的通過它的values和index屬性來獲取 Series的陣串列示和索引物件：

In [3]: obj.values
Out[3]:array([4,7,-5,3])
In [4]: obj.index
Out[4]:Int64Index([0,1,2,3])

通常，需要創建一個帶有索引來確定每一個資料點的Series，

In [5]:obj2=Series([4,7,-5,3],index=['d','b','a','c'])
In [6]:obj2
Out[6]:
d 4
b 7
a -5
c 3

如果你有一些資料在一個Python字典中，你可以通過傳遞字典來從這些資料創建一個Series，只傳遞一個字典的時候，結果Series中的索引將是排序后的字典的鍵，

第一關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def create_series():
    '''
    回傳值:
    series_a: 一個Series型別資料
    series_b: 一個Series型別資料
    dict_a：  一個字典型別資料
    '''
    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    series_a=Series([1,2,5,7],index=['nu','li','xue','xi'])
    dict_a={'ting':1,'shuo':2,'du':32,'xie':44}
    series_b=Series(dict_a)
    # ********** End **********#

    # 回傳series_a,dict_a,series_b
    return series_a,dict_a,series_b

第二關：了解資料處理物件-DataFrame

編程要求

創建一個五行三列的名為df1的DataFrame陣列，列名為 [states,years,pops]，行名['one','two','three','four','five']；

給df1添加新列，列名為new_add，值為[7,4,5,8,2]，

第二關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def create_dataframe():
    '''
    回傳值:
    df1: 一個DataFrame型別資料
    '''
    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    data={'states':['Ohio','Ohio','Ohio','Nevada','Nevada'],'years':[2000,2001,2002,2001,2002],'pops':[1.5,1.7,3.6,2.4,2.9]}
    df1=DataFrame(data,index=['one','two','three','four','five'])
    df1['new_add'] = [7,4,5,8,2]

    # ********** End **********#

    #回傳df1
    return df1

第三關：讀取CSV格式資料

編程要求

將test3/uk_rain_2014.csv中的資料匯入到df1中；

將列名修改為['water_year','rain_octsep','outflow_octsep','rain_decfeb', 'outflow_decfeb', 'rain_junaug', 'outflow_junaug']；

計算df1的總行數并存盤在length1中，

第三關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd
def read_csv_data():
    '''
    回傳值:
    df1: 一個DataFrame型別資料
    length1: 一個int型別資料
    '''
    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    df1=pd.read_csv('test3/uk_rain_2014.csv', header=0,encoding = 'gbk')
    df1.columns = ['water_year','rain_octsep','outflow_octsep','rain_decfeb', 'outflow_decfeb', 'rain_junaug', 'outflow_junaug']
    length1=len(df1)
    # ********** End **********#
    #回傳df1,length1
    return df1,length1

第四關：資料的基本操作——排序

編程要求

對代碼中s1進行按索引排序，并將結果存盤到s2；

對代碼中d1進行按值排序（index為f），并將結果存盤到d2，

第四關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd
def sort_gate():
    '''
    回傳值:
    s2: 一個Series型別資料
    d2: 一個DataFrame型別資料
    '''

    # s1是Series型別資料，d1是DataFrame型別資料
    s1 = Series([4, 3, 7, 2, 8], index=['z', 'y', 'j', 'i', 'e'])
    d1 = DataFrame({'e': [4, 2, 6, 1], 'f': [0, 5, 4, 2]})

    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    s2=s1.sort_index()
    d2=d1.sort_values(by='f')
    # ********** End **********#



    #回傳s2,d2
    return s2,d2

第五關：資料的基本操作——洗掉

編程要求

在s1中洗掉z行，并賦值到s2；

d1中洗掉yy列，并賦值到d2，

第五關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import numpy as np
import  pandas as pd

def delete_data():
    '''
    回傳值:
    s2: 一個Series型別資料
    d2: 一個DataFrame型別資料
    '''

    # s1是Series型別資料，d1是DataFrame型別資料
    s1 = Series([5, 2, 4, 1], index=['v', 'x', 'y', 'z'])
    d1=DataFrame(np.arange(9).reshape(3,3), columns=['xx','yy','zz'])
    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    s2=s1.drop('z')
    d2=d1.drop(['yy'],axis=1)
    # ********** End **********#

    # 回傳s2,d2
    return s2, d2

第六關：資料的基本操作——算術運算

編程要求

讓df1與df2相加得到df3，并設定默認填充值為4，

第六關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import numpy as np
import  pandas as pd

def add_way():
    '''
    回傳值:
    df3: 一個DataFrame型別資料
    '''

    # df1,df2是DataFrame型別資料
    df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
    df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    df3=df1.add(df2,fill_value=4)

    # ********** End **********#

    # 回傳df3
    return df3

第七關：資料的基本操作——去重

編程要求

去除df1中重復的行，并把結果保存到df2中，

第七關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def delete_duplicated():
    '''
    回傳值:
    df2: 一個DataFrame型別資料
    '''

    # df1是DataFrame型別資料
    df1 = DataFrame({'k1': ['one'] * 3 + ['two'] * 4, 'k2': [1, 1, 2, 3, 3, 4, 4]})
    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    df2=df1.drop_duplicates()

    # ********** End **********#

    # 回傳df2
    return df2

第八關：層次化索引

編程要求

對s1進行資料重塑，轉化成DataFrame型別，并復制到d1，

第八關答案

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd
import numpy as np
def suoying():
    '''
    回傳值:
    d1: 一個DataFrame型別資料
    '''
    #s1是Series型別資料
    s1=Series(np.random.randn(10),
           index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
    # 請在此添加代碼 完成本關任務
    # ********** Begin *********#
    d1=s1.unstack()

    # ********** End **********#

    # 回傳d1
    return d1



suoying()

資料采集習題參考答案，會持續更新，點個關注防丟失，

創作不易，一鍵三連給博主一個支持唄，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/337598.html

標籤：AI

上一篇：[股票預測]基于BP神經網路的股票行情預測

下一篇：人工智能學習路線：來自中科院IT大佬的強烈推薦

資料采集與清洗基礎習題（四）Pandas初體驗，頭歌參考答案

實訓一：Pandas初體驗

第一關：了解資料處理物件--Series

編程要求

Pandas中的資料結構

第一關答案

第二關：了解資料處理物件-DataFrame

編程要求

相關知識

第二關答案

第三關：讀取CSV格式資料

編程要求

相關知識

第三關答案

第四關：資料的基本操作——排序

編程要求

相關知識

第四關答案

第五關：資料的基本操作——洗掉

編程要求

相關知識

第五關答案

第六關：資料的基本操作——算術運算

編程要求

相關知識

第六關答案

第七關：資料的基本操作——去重

編程要求

相關知識

第七關答案

第八關：層次化索引

編程要求

相關知識

第八關答案