【原理+代碼】Python實作Topsis分析法（優劣解距離法）-有解無憂

綜合評價法

什么是Topsis法

MATLAB代碼

TOPSIS法的演算法步驟

資料正向化

資料標準化

考慮是否加權？（熵權法）

歸一化并計算得分 (無加權）

最優最劣（加權）

TOPSIS法的評估

可視化

(AHP)層次分析法定權重

每文一語

綜合評價法

評價方法一般分為兩類，一類是主觀賦權法，多數采取綜合咨詢評分確定權重，如：綜合指數法、模糊綜合評價法、層次分析法、功效系數法等，另一類是客觀賦權法，根據各指標之間的相關關系或各指標值變異程度來確定權數，如：主成分分析法、因子分析法、理想解法等，

那么目前，主要使用的評價方法有：主成分分析法、因子分析法、TOPSIS法（本文詳解）、秩和比法、灰色關聯法、熵權法、層次分析法、模糊評價法、物元分析法、聚類分析法、價值工程法、神經網路法等，

是不是感覺太多了，其實當你踏進機器學習和演算法，以及建模的道路當中，知識才是越學越多，越學才知道要學的東西太多了，俗話說：人外有人，天外有天，知識的海洋是無窮無盡的，學海無涯，當然要做舟呀，不然還沒有入海3秒你就被淹死了，哈哈哈！

什么是Topsis法

該方法通過構造評價問題的正理想解和負理想解（各指標的最優解和最劣解），通過計算每個方案到理想方案的相對貼近度，即靠近正理想解和負理想解的程度，來對方案進行排序，從而選出最優方案，

TOPSIS法是根據有限個評價物件與理想化目標的接近程度進行排序的方法，是在現有的物件中進行相對優劣的評價【其中最優解的各指標值都達到各評價指標的最優值，最劣解的各指標值都達到各評價指標的最差值】

TOPSIS法特別適合具有多組評價物件時，要求通過檢測評價物件與最優解、最劣解的距離來進行排序

原理思想

確定最優方案和最劣方案

計算各評價物件與最優方案、最劣方案的接近程度（典型：熵權法）

計算各評價物件與最優方案的貼近程度

這里有一個MATLAB 代碼案例，可以參考使用，從熵權法到得出評分，本文還是著重從Python的角度實作，

MATLAB代碼

%%  第一步：把資料復制到作業區，并將這個矩陣命名為 X
load data_water_quality.mat          % 資料的名字叫 data_water_quality


%%  第二步：判斷是否需要正向化
[n,m] = size(X);
disp(['共有' num2str(n) '個評價物件, ' num2str(m) '個評價指標']) 
Judge = input(['這' num2str(m) '個指標是否需要經過正向化處理，需要請輸入1 ，不需要輸入0：  ']);

if Judge == 1
    Position = input('請輸入需要正向化處理的指標所在的列，例如第2、3、6三列需要處理，那么你需要輸入[2,3,6]： ');%[2,3,4]
    disp('請輸入需要處理的這些列的指標型別（1：極小型， 2：中間型， 3：區間型） ')
    Type = input('例如：第2列是極小型，第3列是區間型，第6列是中間型，就輸入[1,3,2]：  '); % [2,1,3]
    for i = 1 : size(Position,2)
        X(:,Position(i)) = Positivization(X(:,Position(i)),Type(i),Position(i));
    end
    disp('正向化后的矩陣 X =  ')
    disp(X)
end


%% 第三步：對正向化后的矩陣進行標準化
Z = X ./ repmat(sum(X.*X) .^ 0.5, n, 1);
disp('標準化矩陣 Z = ')
disp(Z)


%% 第四步：讓用戶判斷是否需要增加權重（可以自己決定權重，也可以用熵權法確定權重）
disp("請輸入是否需要增加權重向量，需要輸入1，不需要輸入0")
Judge = input('請輸入是否需要增加權重： ');
if Judge == 1
    Judge = input('使用熵權法確定權重請輸入1，否則輸入0： ');
    if Judge == 1
        if sum(sum(Z<0)) >0   % 如果之前標準化后的Z矩陣中存在負數，則重新對X進行標準化
            disp('原來標準化得到的Z矩陣中存在負數，所以需要對X重新標準化')
            for i = 1:n
                for j = 1:m
                    Z(i,j) = [X(i,j) - min(X(:,j))] / [max(X(:,j)) - min(X(:,j))];
                end
            end
            disp('X重新進行標準化得到的標準化矩陣Z為:  ')
            disp(Z)
        end
        weight = Entropy_Method(Z);
        disp('熵權法確定的權重為：')
        disp(weight)
    else
        disp(['如果你有3個指標，你就需要輸入3個權重，例如它們分別為0.25,0.25,0.5, 則你需要輸入[0.25,0.25,0.5]']);
        weight = input(['你需要輸入' num2str(m) '個權數，' '請以行向量的形式輸入這' num2str(m) '個權重: ']);
        OK = 0;  % 用來判斷用戶的輸入格式是否正確
        while OK == 0 
            if abs(sum(weight) -1)<0.000001 && size(weight,1) == 1 && size(weight,2) == m  % 注意浮點數
                OK =1;
            else
                weight = input('你輸入的有誤，請重新輸入權重行向量: ');
            end
        end
    end
else
    weight = ones(1,m) ./ m ; %如果不需要加權重就默認權重都相同，即都為1/m
end


%% 第五步：計算與最大值的距離和最小值的距離，并算出得分
D_P = sum([(Z - repmat(max(Z),n,1)) .^ 2 ] .* repmat(weight,n,1) ,2) .^ 0.5;   % D+ 與最大值的距離向量
D_N = sum([(Z - repmat(min(Z),n,1)) .^ 2 ] .* repmat(weight,n,1) ,2) .^ 0.5;   % D- 與最小值的距離向量
S = D_N ./ (D_P+D_N);    % 未歸一化的得分
disp('最后的得分為：')
stand_S = S / sum(S)
[sorted_S,index] = sort(stand_S ,'descend')

TOPSIS法的演算法步驟

① 正向化（每一列都轉為極大型）
② 標準化（每一個元素都被標準化處理）
③ 歸一化（每一列的和都為 1 ）
④ 計算權重（求每一行的和）

資料正向化

有的資料是越大越好，有的資料是靠近某個值越好，有的是在一個區間中最好，這種不同的方向和區間讓分析變得混亂，為了簡化分析我們將資料進行正向化處理，都讓他越大越好，通常來說，常見的資料可以分為四類：

極大型指標（效益類指標）：指標數值越大越好，
極小型指標（成本類指標）：指標數值越小越好，
中間型指標：指標數值越接近某個值越好，
區間型指標：指標數值在某個區間范圍內最好，區間中的數值大小無優劣之分，

極小型指標轉化為極大型指標：（患病率）

#極小型指標 -> 極大型指標
def dataDirection_1(datas):
    return np.max(datas)-datas     #套公式（1）

中間型指標轉化為極大型指標：（ph值越接近7就越好）

#中間型指標 -> 極大型指標
def dataDirection_2(datas, x_best):
    temp_datas = datas - x_best
    M = np.max(abs(temp_datas))
    answer_datas = 1 - abs(datas - x_best) / M     #套公式
    return answer_datas

區間型指標轉化為極大型指標：期望指標的取值最好落在某一個確定的區間最好（如體溫）

#區間型指標 -> 極大型指標
def dataDirection_3(datas, x_min, x_max):
    M = max(x_min - np.min(datas), np.max(datas) - x_max)
    answer_list = []
    for i in datas:
        if(i < x_min):
            answer_list.append(1 - (x_min-i) /M)      #套公式
        elif( x_min <= i <= x_max):
            answer_list.append(1)
        else:
            answer_list.append(1 - (i - x_max)/M)
    return np.array(answer_list)

那么有時候，我們不是很確定最佳的區間值，可能我們在不同的專家下或者資料下，發現區間值有所波動，舉一個簡單的例子，假設某一個指標官方給出的是[4,5],但是就會出現一個問題，某些情況下5.5和3.5也算是不錯的，如果采用后者那么就會太偏激了，采用前者又太局限了，所以我們應該如何去做呢？這里重新定義了一個公式，添加了最大容忍區間，

def dataDirection_3(datas, x_min, x_max, x_minimum, x_maximum):
	def normalization(data):
		if data >= x_min and data <= x_max:
			return 1
		elif data <= x_minimum or data >= x_maximum:
			return 0
		elif data > x_max and data < x_maximum:
			return 1 - (data - x_max) / (x_maximum - x_max)
		elif data < x_min and data > x_minimum:
			return 1 - (x_min - data) / (x_min - x_minimum)

	return list(map(normalization, datas))

上述的轉換，其實最終都是轉換為正向值，不管你的方法是那種，條條大路通羅馬

資料標準化

經過了正向化后，還存在一個問題就是所有的值都有它的量綱，以經過了正向化的表格數值為例，假如直接計算距離，那么肯定是肺活量越大的人越健康，比如肺活量要比其他值大得多，為了消除資料量綱的影響我們需要對資料進行標準化處理，對于每一列的資料進行標準化的方法如下：

構造加權規范矩陣，屬性進行向量規范化，即每一列元素都除以當前列向量的范數（使用余弦距離度量）

# 使用sklearn里面的包，不用傳統的方法
from sklearn.preprocessing import MinMaxScaler,StandardScaler,scale
def temp2(A):
    max_min_scaler=StandardScaler()
    A=max_min_scaler.fit_transform(A)
    return A
#這種方法適合大多數型別的資料，其應用非常廣泛，從公式里我們就可以看出來，轉化之后其均值將變為0，而方差和標準差將變為1（考慮方差的公式），這部分如果不明白那就不妨在本子上推理一下哦，

本質原理：

data = data / np.sqrt((data ** 2).sum())

其他：

def Standard(datas):
    K = np.power(np.sum(pow(datas,2),axis = 0),0.5)
    for i in range(len(K)):
        datas.iloc[: , i] = datas.iloc[: , i] / K[i]
    return datas

這里可以采用自定義的標準化公式，寫出原始代碼，但是sklearn更加的快速的簡單，正好前期更新了機器學習，

考慮是否加權？（熵權法）

熵權法是一種客觀賦權方法，在具體使用程序中，根據各指標的資料的分散程度，利用資訊熵計算出各指標的熵權，再根據各指標對熵權進行一定的修正，從而得到較為客觀的指標權重，

如果你對某些指標，有更加的專家知識驗證，那么你也可以根據演算法所算出來的權重指標，自己去做一些細微的調整，可能效果更好，

#熵權法等 
def entropy(df):
    #回傳每個樣本的指數
    #樣本數，指標個數
    n,m=np.shape(data0)
    #一行一個樣本，一列一個指標
    #下面是歸一化
    maxium=np.max(data0,axis=0)
    minium=np.min(data0,axis=0)
    data= (data0-minium)*1.0/(maxium-minium)
    ##計算第j項指標，第i個樣本占該指標的比重
    sumzb=np.sum(data,axis=0)
    data=data/sumzb
    #對ln0處理
    a=data*1.0
    a[np.where(data==0)]=0.0001
#    #計算每個指標的熵
    e=(-1.0/np.log(n))*np.sum(data*np.log(a),axis=0)
#    #計算權重
    w=(1-e)/np.sum(1-e)
#     recodes=np.sum(data*w,axis=1)
    return w


plt.figure(figsize=(10,8))
sns.barplot(recodes,df.columns, orient='h')

歸一化并計算得分 (無加權）

def Score(sta_data):
    z_max = np.amax(sta_data , axis=0)
    z_min = np.amin(sta_data , axis=0)
    # 計算每一個樣本點與最大值的距離
    tmpmaxdist = np.power(np.sum(np.power((z_max - sta_data) , 2) , axis = 1) , 0.5)  # 每個樣本距離Z+的距離
    tmpmindist = np.power(np.sum(np.power((z_min - sta_data) , 2) , axis = 1) , 0.5)  # 每個樣本距離Z+的距離
    score = tmpmindist / (tmpmindist + tmpmaxdist)
    score = score / np.sum(score)  # 歸一化處理
    return score

最優最劣（加權）

import pandas as pd
import numpy as np


def topsis(data, weight=None):
	# 歸一化
	data = data / np.sqrt((data ** 2).sum())

	# 最優最劣方案
	Z = pd.DataFrame([data.min(), data.max()], index=['負理想解', '正理想解'])

	# 距離
	weight = entropyWeight(data) if weight is None else np.array(weight)
	Result = data.copy()
	Result['正理想解'] = np.sqrt(((data - Z.loc['正理想解']) ** 2 * weight).sum(axis=1))
	Result['負理想解'] = np.sqrt(((data - Z.loc['負理想解']) ** 2 * weight).sum(axis=1))

	# 綜合得分指數
	Result['綜合得分指數'] = Result['負理想解'] / (Result['負理想解'] + Result['正理想解'])
	Result['排序'] = Result.rank(ascending=False)['綜合得分指數']

	return Result, Z, weight

TOPSIS法的評估

Topsis法的優點：
（1）避免了資料的主觀性，不需要目標函式，不用通過檢驗，而且能夠很好的刻畫多個影響指標的綜合影響力度
（2）對于資料分布及樣本量、指標多少無嚴格限制，既適于小樣本資料，也適于多評價單元、多指標的大系統,較為靈活、方便
Topsis法的缺點：
（1）需要的每個指標的資料，對應的量化指標選取會有一定難度
（2） 不確定指標的選取個數為多少適宜，才能夠去很好刻畫指標的影響力度
（3）必須有兩個以上的研究物件才可以進行使用