1 案例介紹

2 資料預處理

2.1 rle編碼轉換

2.2 資料擴增

2.3 例外資料的處理

3 自定義資料庫類

4 模型訓練

5 語意分割的準確率評價方法

3.1 像素準確率（PA）

3.2 類別像素準確率（CPA）

3.3 類別平均像素準確率（MPA）

3.4 交并比（IoU）

3.5 平均交并比(MIoU)

1 案例介紹

遙感技術已成為獲取地表覆寫資訊最為行之有效的手段，遙感技術已經成功應用于地表覆寫檢測、植被面積檢測和建筑物檢測任務，本賽題使用航拍資料，需要參賽選手完成地表建筑物識別，將地表航拍影像素劃分為有建筑物和無建筑物兩類，

如下圖，左邊為原始航拍圖，右邊為對應的建筑物標注，

本案例訓練集為航拍的地標建筑物，訓練集影像為30000張圖片，其中訓練集的標簽為rle序列的csv檔案，測驗集為2500個影像，

2 資料預處理

2.1 rle編碼轉換

RLE編碼是微軟開發為AVI格式開發的一種編碼，假設一個影像的像素色彩值是這樣排列的：紅紅紅紅紅紅紅紅紅紅紅紅藍藍藍藍藍藍綠綠綠綠，經過RLE壓縮后就成為了：紅12藍6綠4，這樣既保證了壓縮的可行性，而且不會有損失，而且可以看到，當顏色數越少時，壓縮效率會更高，

在本案例中，我們首先要對rle編碼進行讀取，將其轉換為jpg格式的圖片，

官方給出的解碼檔案可以將rle編碼序列轉化為一個numpy矩陣，轉碼函式如下：

我們首先對csv檔案進行讀取，保存到一個二維陣列中，

train_mask = pd.read_csv('../dataset/train_mask.csv/train_mask.csv', sep='\t', names=['name', 'mask'])
# 讀取第一張圖，并將對于的rle解碼為mask矩陣
img = cv2.imread('../dataset/train/' + train_mask['name'].iloc[0])  # name列的第0行
mask = rle_decode(train_mask['mask'].iloc[0])
print(train_mask.head())

train_mask['name'].lioc[0]:lioc用于提取行資料，整體含義為name列第0行資料

names欄位作用：命名csv檔案列名

train_mask.head()輸出檢驗列名，我們可以看到csv檔案如下：

我們通過觀察發現，轉碼后的變數是一個矩陣，我們將矩陣轉化為一個二值圖，再將其做為標簽存放，需要注意的是，矩陣中的值都是0或1，而二值圖的8位編碼范圍為0-255，這樣我們在觀察標簽的時候會看到幾乎全黑的情況，所以我們在得到輸出后的矩陣，一定要將其乘上255，

要注意的是二值圖和灰度圖的區別，二值圖是一種單通道影像，其矩陣形式只可表現為兩個數值；灰度圖是一種RGB三通道影像，每個通道的數值相等，它相比于二值圖更多的保留了原始影像的資訊，

for i in range(30000):
    try:
        train_mask = rle_decode(train_rle['mask'].iloc[i])
        print(type(train_mask))  # 矩陣形式
        train_mask = train_mask * 255
        train_mask = train_mask.astype(np.uint8)
        cv2.imwrite('D:\\00Com_TianChi\\dataset\\train\\build_label\\' + train_rle['name'].iloc[i], train_mask)
    except:
        pass
        train_mask = np.zeros((512, 512)).astype('uint8')
        train_mask = train_mask * 255
        cv2.imwrite('D:\\00Com_TianChi\\dataset\\train\\build_label\\' + train_rle['name'].iloc[i], train_mask)

其中將矩陣轉為numpy格式并存盤成圖片的轉換函式為astype()，

使用方法為 train_mask = train_mask.astype(np.uint8)

在訓練集中有很多例外資料，對于例外資料，我們使用try-except語法來進行處理，

try：正常情況

except：資料例外情況

2.2 資料擴增

資料擴增是一種有效的正則化方法，可以防止模型過擬合，在深度學習模型的訓練程序中應用廣泛，資料擴增的目的是增加資料集中樣本的資料量，同時也可以有效增加樣本的語意空間，

在語意分割領域，我們通常將訓練集的影像與標簽進行同步的影像變換，這樣可以對模型進行有效的訓練，

本案例利用albumentations庫進行資料擴增，albumentations是基于OpenCV的快速訓練資料增強庫，擁有非常簡單且強大的可以用于多種任務（分割、檢測）的介面，易于定制且添加其他框架非常方便，

# ---------------資料擴增部分---------------
    aug_data = 'D:\\00Com_TianChi\\dataset\\train_aug\\'
    image_build_aug = "build_image_aug"
    label_build_aug = "build_label_aug"
    # 擴增img和擴增label的路徑
    image_build_aug_path = os.path.join(aug_data, image_build_aug)
    label_build_aug_path = os.path.join(aug_data, label_build_aug)

        # 原始影像的名稱 build_dataset.image_list[0] build_dataset.label_list[0]

    # 路徑測驗
    # print(os.path.join(root_dir, image_build,  build_dataset.image_list[0]))

    # print( os.path.join(image_build_aug_path,  'scale' + build_dataset.image_list[0]))

    for i in range(0, 5):
        print(i)
        # 將 原始影像和原始標簽路徑 放入函式 得到路徑
        img_path = os.path.join(root_dir, image_build,  build_dataset.image_list[i])
        label_path = os.path.join(root_dir, label_build, build_dataset.label_list[i])
        # 根據路徑加載圖片 轉為np類
        trans_img = np.asarray(Image.open(img_path))
        trans_label = np.asarray(Image.open(label_path))


        # 水平翻轉操作
        augments = aug.HorizontalFlip(p=1)(image=trans_img, mask=trans_label)
        img_aug_hor, mask_aug_hor = augments['image'], augments['mask']
        # 隨即裁剪操作
        augments = aug.RandomCrop(p=1, height=256, width=256)(image=trans_img, mask=trans_label)
        img_aug_ran, mask_aug_ran = augments['image'], augments['mask']
        # 旋轉操作
        augments = aug.ShiftScaleRotate(p=1)(image=trans_img, mask=trans_label)
        img_aug_rot, mask_aug_rot = augments['image'], augments['mask']
        # 復合操作
        trfm = aug.Compose([
            aug.Resize(256, 256),
            aug.HorizontalFlip(p=0.5),
            aug.VerticalFlip(p=0.5),
            aug.RandomRotate90(),
        ])
        augments = trfm(image=trans_img, mask=trans_label)
        img_aug_mix, mask_aug_mix = augments['image'], augments['mask']


        # 保存路徑 變換后的檔案名
        # 水平翻轉
        save_hor_path_img = os.path.join(image_build_aug_path,  'hor' + build_dataset.image_list[i])
        save_hor_path_label = os.path.join(label_build_aug_path, 'hor' + build_dataset.label_list[i])
        cv2.imwrite(save_hor_path_img, img_aug_hor)
        cv2.imwrite(save_hor_path_label, mask_aug_hor)
        # 隨即裁剪
        save_ran_path_img = os.path.join(image_build_aug_path, 'ran' + build_dataset.image_list[i])
        save_ran_path_label = os.path.join(label_build_aug_path, 'ran' + build_dataset.label_list[i])
        cv2.imwrite(save_ran_path_img, img_aug_ran)
        cv2.imwrite(save_ran_path_label, mask_aug_ran)
        # 旋轉操作
        save_rot_path_img = os.path.join(image_build_aug_path, 'rot' + build_dataset.image_list[i])
        save_rot_path_label = os.path.join(label_build_aug_path, 'rot' + build_dataset.label_list[i])
        cv2.imwrite(save_rot_path_img, img_aug_rot)
        cv2.imwrite(save_rot_path_label, mask_aug_rot)
        # 復合操作
        save_mix_path_img = os.path.join(image_build_aug_path, 'rot' + build_dataset.image_list[i])
        save_mix_path_label = os.path.join(label_build_aug_path, 'rot' + build_dataset.label_list[i])
        cv2.imwrite(save_mix_path_img, img_aug_mix)
        cv2.imwrite(save_mix_path_label, mask_aug_mix)

2.3 例外資料的處理

在rle轉mask編碼的處理中，我們將例外rle資料轉換成全黑圖片處理，可是在后面的訓練中發現，損失函式的振蕩較大，于是考慮將例外資料全部剔除，再次訓練函式觀察損失函式的變化，（待更）

3 自定義資料庫類

在資料預處理后，我們進行資料庫類的定義，在每次進行模型訓練前，我們要將訓練集的資料輸入給一個類中，這樣能夠使我們清晰地有條理地利用好我們的訓練集資料，本案例的資料庫類定義如下，

class MyData(Dataset):
    def __init__(self, root_dir, image_dir, label_dir, transform):
        self.root_dir = root_dir
        self.image_dir = image_dir
        self.label_dir = label_dir
        self.label_path = os.path.join(self.root_dir, self.label_dir)
        self.image_path = os.path.join(self.root_dir, self.image_dir)
        self.image_list = os.listdir(self.image_path)
        self.label_list = os.listdir(self.label_path)
        self.transform = transform
        # 因為label 和 Image檔案名相同，進行一樣的排序，可以保證取出的資料和label是一一對應的
        self.image_list.sort()
        self.label_list.sort()

    def __getitem__(self, idx):
        img_name = self.image_list[idx]
        label_name = self.label_list[idx]
        img_item_path = os.path.join(self.root_dir, self.image_dir, img_name)
        label_item_path = os.path.join(self.root_dir, self.label_dir, label_name)
        img = Image.open(img_item_path)
        label = Image.open(label_item_path)
        # label = self.label_dir
        trans_tensor = transforms.ToTensor()
        img = trans_tensor(img)  # 將圖片變為tensor格式
        label = trans_tensor(label)
        return img, label
        # with open(label_item_path, 'r') as f:
        #     label = f.readline()
        #
        # # img = np.array(img)
        # img = self.transform(img)
        # sample = {'img': img, 'label': label}
        # return sample

    def __len__(self):
        assert len(self.image_list) == len(self.label_list)
        return len(self.image_list)

函式有四個輸入變數：

root_dir:為資料集根目錄
train_dir:為訓練集目錄
text_dir:為測驗集目錄
transform:為對資料集做的transform

我們利用os對路徑進行整合，這一部分有很多實用的資料轉換代碼，在這里小結一下，

存圖片

cv2.imwrite('D:\\00Com_TianChi\\dataset\\train\\build_label\\' + train_rle['name'].iloc[i], train_mask)

加載一張圖片:

# 加載后圖片格式為PIL.JpegImagePlugin.JpegImageFile
img = Image.open(img_item_path)

將PIL.JpegImagePlugin.JpegImageFile型別轉為陣列

# 轉換后變數的資料型別為np型
img = np.asarray(img)

將陣列轉為torch.Tensor類:

img = torch.tensor(img)

注意transforms.ToTensor和torch.Tensor的區別：

transforms.ToTensor:可以將np或PIL型別的圖片轉為tensor型，但是轉換的同時也會將其歸一化，因為transform封裝的函式中將tensor型變數中的每個量設定的范圍為[0,1]，
torch.Tensor:這個函式和transforms.ToTensor的功能類似，但是沒有將張量歸一化，

下面對資料庫類實體化，

# 定義訓練集
transform = transforms.Compose([transforms.Resize((512, 512)), transforms.ToTensor()])
root_dir = "D:/00Com_TianChi/dataset/train/"
image_build = "build_image"
label_build = "build_label"
build_dataset = MyData(root_dir, image_build, label_build, transform=transform)
# 定義測驗集
test_dir = "D:/00Com_TianChi/dataset/test/"
image_build_test = "img"
label_build_test = "label"
test_dataset = MyData(test_dir, image_build_test, label_build_test, transform=transform)

在對資料庫類進行實體化后，我們定義模型的data_loader，批處理量定位8，

train_dataloader = DataLoader(build_dataset, batch_size=8, shuffle=True, num_workers=4)

4 模型訓練

待更

5 語意分割的準確率評價方法

在語言分割的評價方法中，我們主要利用混淆矩陣對模型準確率進行評價，在前幾期的博客中已經對混淆矩陣進行了介紹，我們再次來回顧一下混淆矩陣的概念，并嘗試從語意分割領域對混淆軍陣進行新的理解，

我們已經了解到，經模型輸出后影像能夠根據預測的結果分為不同的mask，每一類mask就是模型輸出的某一個類別，或者也可以成為某一個通道，當我們對背景感興趣時，圖(b)中真實值=1的情況則為全部的背景，即圖中清晰部分；模型輸出中預測值=1的部分為正確的預測，即圖中紫色部分；模型輸出中預測值=0的部分為錯誤的預測，即黃色的部分，

當我們對人物感興趣時也是同理，圖（c）中真實值=1時，則為我們感興趣的部分，即人物；當預測值=1時，則為預測正確的部分，這張圖恰巧精確度很高，圖中黃紫藍組成的顏色則為預測值=1時的情況，

那么問題來了——當真實值=0時，該是哪個區域呢？當我們對于人物感興趣時，真實值=1為人物，那么真實值=0時則為人物以外的區域，則為背景區域，圖(d)中當真實值=0，預測值=1時，則為黑色線條圈出來的部分，通俗的講可以理解為：本該預測成背景，可是預測錯了，

3.1 像素準確率（PA）

預測類別正確的像素數占總像素數的比例
PA = (TP + TN) / (TP + TN + FP + FN）

3.2 類別像素準確率（CPA）

在類別 i 的預測值中，真實屬于 i 類的像素準確率，換言之：模型對類別 i 的預測值有很多，其中有對有錯，預測對的值占預測總值的比例，

P1 = TP / (TP + FP)

3.3 類別平均像素準確率（MPA）

分別計算每個類被正確分類像素數的比例，即：CPA，然后累加求平均

每個類別像素準確率為：Pi（計算：對角線值 / 對應列的像素總數）
MPA = sum(Pi) / 類別數

3.4 交并比（IoU）

模型對某一類別預測結果和真實值的交集與并集的比值
混淆矩陣計算：
- IoU = TP / (TP + FP + FN)

3.5 平均交并比(MIoU)

模型對每一類交并比，求和再平均的結果，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/335320.html

標籤：其他

上一篇：大佬今天教你用python制作五款簡單又好玩的小游戲

下一篇：基于蟻群演算法影像邊緣檢測的認識

天池競賽-地表建筑物識別

1 案例介紹

2 資料預處理

2.1 rle編碼轉換

2.2 資料擴增

2.3 例外資料的處理

3 自定義資料庫類

4 模型訓練

5 語意分割的準確率評價方法

3.1 像素準確率（PA）

3.2 類別像素準確率（CPA）

3.3 類別平均像素準確率（MPA）

3.4 交并比（IoU）

3.5 平均交并比(MIoU)