一種資料選擇偏差下的去相關聚類方法
作者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/
本博文是對Decorrelated clustering with data selection bias這篇文章的展開與敘述,現有的聚類演算法大多沒有考慮資料的選擇偏差,然而,在許多實際應用中,人們不能保證資料是無偏的,選擇偏差可能會導致特征之間產生意想不到的相關性,忽略這些意想不到的相關性會影響聚類演算法的性能,因此,如何消除這些由選擇偏差引起的非預期相關性是非常重要的,但在聚類程序中還沒有被深入探討,在本文中,提出了一種新的去相關正則化k -均值演算法(DCKM),用于有資料選擇偏差的聚類,具體來說,去相關正則化器的目的是學習能夠平衡樣本分布的全域樣本權值,從而消除特征之間的非預期相關性,同時,將學習到的權值與k-means相結合,使重新加權后的k-means聚類對資料的固有分布沒有非預期的相關性影響,此外,本文還推匯出了更新規則,以有效地推斷DCKM中的引數,在真實資料集上的大量實驗結果很好地證明了DCKM演算法獲得了顯著的性能提升,表明在聚類時需要去除由選擇偏差引起的非預期特征關聯,





參考文獻:
[1] Xiao Wang, Shaohua Fan, Kuang Kun, Chuan Shi, Jiawei Liu, Bai Wang. Decorrelated clustering with data selection bias. IJCAI 2020. (CCF-A)
[2] 王嘯,?石川,?范少華. 一種資料選擇偏差下的去相關聚類方法及裝置[發明專利], 申請號: 2020105917421.
王嘯老師個人主頁:https://wangxiaocs.github.io/
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/270721.html
標籤:其他
下一篇:英語雞湯類句子積累
