最近OpenAI的ChatGPT真的是到處都在刷屏，我想你已經看過很多關于ChatGPT的文章或者視頻了，我就不過多介紹了，

不過你碰巧還不知道的話，可以先百度一下，然后再回來繼續，

與ChatGPT對話很有趣，甚至很有啟發性，有人用它聊天，有人用它寫代碼，太多省時省力的作業，都可以由它完成，我們的內容創作部門已經將ChatGPT用于文案生成，那么對研發，ChatGPT是否有用呢？我做了一個測驗，讓ChatGPT來完成演算法研究中頻繁要做的資料清洗和處理問題，結果讓人非常滿意，以后還招啥工程師，直接找ChatGPT吧！

簡單資料處理

我們首先從簡單的任務入手，讓ChatGPT完成資料加載和簡單的清洗作業，

任務目標

加載資料集；
確保資料集中所有值均為數值型別，如果不是則嘗試將其轉換為數值型別；
檢查缺失值；
資料集分成訓練集和測驗集，

上面這4個任務是演算法執行前必須要做的常規作業，我們看一下ChatGPT的表現

輸出結果

import pandas as pd
import numpy as np

def load_csv_data(file_path):
    # Load the csv file into a pandas DataFrame
    df = pd.read_csv(file_path)
    
    # Convert string type data to numeric type and save the mapping in a dictionary
    conversion_map = {}
    for column in df.columns:
        if df[column].dtype == 'O':
            unique_values = df[column].unique()
            conversion_map[column] = {unique_values[i]: i for i in range(len(unique_values))}
            df[column] = df[column].map(conversion_map[column])
    
    # Check for missing values
    missing_value_counts = df.isnull().sum()
    for column, missing_count in missing_value_counts.items():
        if missing_count > 1:
            df.drop(df[df[column].isnull()].index, inplace=True)
        elif missing_count == 1:
            df[column].fillna(df[column].mean(), inplace=True)
    
    # Split the dataset into training and validation sets
    train_df = df.sample(frac=0.8, random_state=0)
    val_df = df.drop(train_df.index)
    
    return train_df, val_df, conversion_map
# 新的一年，必須卷死同學、同事，狠狠的提升一波自己的Python實力，
# 這里我給大家準備了2023最新的Python學習資料、電子書、基礎視頻教程、實戰案例，直接在這個扣裙自取即可（708525271）

分析

上面代碼可以完美完成目標任務，從csv檔案中加載資料集，并以80/20的比例將資料集拆分為測驗集和訓練集，關鍵邏輯還加上了注釋，ChatGPT甚至貼心的給出了函式使用方法，

ChatGPT生成上面代碼總共用時116秒，同時我們的資料工程師撰寫同樣功能的代碼用時225秒，二者的代碼差異不大，但是我們的資料工程師沒寫注釋，

上面的任務是資料工程師幾乎天天都要寫的代碼，他們很熟練，我又找了一個大學剛畢業還在實習期的資料助理來寫，居然半個小時才完成，由于對介面不熟悉，大量時間花在了百度上[捂臉]，

第一輪比試，從各個維度上，都是ChatGPT勝，

重構代碼

在上一輪的比試中，我發現我們的資料工程師有“偷雞”行為——由于平時經常需要完成上面作業，他將很多功能封裝成了獨立的函式，用的時候直接引入或拷貝，使用函式按照邏輯組織代碼，不僅能夠促進代碼復用，還有利于代碼維護，所以我們接下來試著讓ChatGPT重構一下自己的代碼，

任務目標

將上面的代碼按照功能合理地拆分成若干函式，

輸出結果

import pandas as pd
import numpy as np

def load_csv(file_path):
    return pd.read_csv(file_path)

def convert_strings_to_numeric(df):
    conversion_map = {}
    for column in df.columns:
        if df[column].dtype == 'O':
            unique_values = df[column].unique()
            conversion_map[column] = {unique_values[i]: i for i in range(len(unique_values))}
            df[column] = df[column].map(conversion_map[column])
    return df, conversion_map

def handle_missing_values(df):
    missing_value_counts = df.isnull().sum()
    for column, missing_count in missing_value_counts.items():
        if missing_count > 1:
            df.drop(df[df[column].isnull()].index, inplace=True)
        elif missing_count == 1:
            df[column].fillna(df[column].mean(), inplace=True)
    return df

def split_data(df):
    train_df = df.sample(frac=0.8, random_state=0)
    val_df = df.drop(train_df.index)
    return train_df, val_df

def prepare_data(file_path):
    df = load_csv(file_path)
    df, conversion_map = convert_strings_to_numeric(df)
    df = handle_missing_values(df)
    train_df, val_df = split_data(df)
    return train_df, val_df, conversion_map

分析

ChatGPT拆分出5個函式：

load_csv(file_path) 負責從csv檔案中加載資料集，回傳DataFrame；
convert_strings_to_numeric(df) 負責將DataFrame中的非數值型別資料轉換為數值型別，并記錄轉換映射表；
handle_missing_values(df) 負責處理缺失值；
split_data(df) 負責將資料集拆分為訓練集和測驗集；
prepare_data(file_path) 將上面4給函式串起來，構成一個pipeline，

不得不說，ChatGPT有一次完美地完成了任務！并且函式名起得非常好，看函式名就能知道函式的功能，比很多中國程式員用拼音或縮寫命名函式友好多了，

擴展代碼

重構后的代碼結構已經非常清晰了，但是還是有缺陷，那就是不夠靈活，很多規則都是寫死的，為了讓代碼更靈活、可擴展性更強，我們一般會將變數以引數的形式傳入，

任務目標

重構上面的代碼，以引數的形式從命令列傳入以下內容：

csv格式資料集的路徑
拆分訓練集和驗證集的大小
閾值，缺失值大于此閾值則洗掉記錄，小于等于此閾值則處理缺失值

輸出結果

import pandas as pd
import numpy as np
import argparse

def load_csv(file_path):
    return pd.read_csv(file_path)

def convert_strings_to_numeric(df):
    conversion_map = {}
    for column in df.columns:
        if df[column].dtype == 'O':
            unique_values = df[column].unique()
            conversion_map[column] = {unique_values[i]: i for i in range(len(unique_values))}
            df[column] = df[column].map(conversion_map[column])
    return df, conversion_map

def handle_missing_values(df, threshold):
    missing_value_counts = df.isnull().sum()
    for column, missing_count in missing_value_counts.items():
        if missing_count > threshold:
            df.drop(df[df[column].isnull()].index, inplace=True)
        elif missing_count <= threshold:
            df[column].fillna(df[column].mean(), inplace=True)
    return df

def split_data(df, split_ratio):
    train_df = df.sample(frac=split_ratio, random_state=0)
    val_df = df.drop(train_df.index)
    return train_df, val_df

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='Prepare data for machine learning.')
    parser.add_argument('file_path', help='Path to the csv file.')
    parser.add_argument('--split-ratio', type=float, default=0.8, help='Ratio of the training set size.')
    parser.add_argument('--threshold', type=int, default=1, help='Threshold for handling missing values.')
    args = parser.parse_args()

    df = load_csv(args.file_path)
    df, conversion_map = convert_strings_to_numeric(df)
    df = handle_missing_values(df, args.threshold)
    train_df, val_df = split_data(df, args.split_ratio)

分析

ChatGPT很好地理解了我們的意圖，引入了argparse模塊來管理和決議命令列引數，關鍵是引數名起的也非常合理，引數說明也非常準確（盡管是英文的），引數都正確地傳入了所屬的函式，又一次完美的完成了任務，

總結

ChatGPT根據我們提供的規范，在創建、重構、擴展一個簡單的資料預處理Python腳本方面做得非常出色，每一步的結果都符合要求，雖然這不是一個復雜任務，確實日常作業中最常見的基本作業，ChatGPT的表現確實驚艷了眾人，預示著它朝著成為真正有用的編程助手邁出重要的一步，

最終我們從如下幾個方面將ChatGPT和我們的資料工程師做了對比：

可見ChatGPT在編碼速度和編碼習慣上都完勝人類工程師，這讓我不得不開始擔心程式員未來的飯碗，是的，你沒有看錯！程式員這個曾經被認為是最不可能被AI取代的職業，如今將面臨來自ChatGPT的巨大挑戰，根據測驗，ChatGPT已經通過Google L3級工程師測驗，這意味著大部分基礎coding的作業可以由ChatGPT完成，盡管ChatGPT在涉及業務的任務上表現不佳，但未來更可能的作業方式是架構師或設計師于ChatGPT協同完成作業，不再需要編碼的碼農，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/544571.html

標籤：其他

上一篇：關于MRP運行的BADIs

下一篇：Spring Boot Hello World 基于 IDEA 案例詳解

程式員即將失業？ChatGPT正在取代各位！

簡單資料處理

任務目標

輸出結果

分析

重構代碼

任務目標

輸出結果

分析

擴展代碼

任務目標

輸出結果

分析

總結