
今天聊聊淘系 CVPR 競賽另一個冠軍:Herbarium 2021 - Half-Earth Challenge,一個最終準確率高到外界懷疑我們雇了個植物學家參賽的故事,
前篇回顧: 如果你看過上期冠軍少麟的故事【僅9天拿下CVPR競賽冠軍,家里的狗狗都改了作息】,今天的冠軍元年主要有2個不同點:第一,他提前3個月開始著手準備;第二,他同時參加了3項挑戰賽,
“暴力青年”的非尋常之路
獅子座的元年,在隊友眼里是個“暴力青年”,
走在路上要是有石頭擋路,別人選擇繞道,他選擇推開;一起打乒乓球,無論對方出什么樣的刁鉆球,一招暴力扣殺吃遍天下;團隊outing,大家走著穩穩的山路,他非要跑去野山坡自行開路,不見懸崖不回頭……
“很有張力,很激進,但也很令人安心,”
這么一個獅子座的青年,帶著他的處女座水瓶座摩羯座同事們,拿下了 CVPR 2021 三個競賽獎項,將冠亞季軍收入囊中,(迷信星座的演算法團隊們哈哈哈)

元年:路在哪兒?腳下!
一群直男強行“認草” :綠得相差無幾
本科學習微電子,保送到北大直接攻讀物理博士的燕保明(花名:元年),原本是個計算機的門外漢,
“就不想焊電路了,也覺得基礎物理太難在短時間內看到突破,就自學演算法了,”
縱使是這么恐怖的學習能力,以及這么彪悍的發言,元年也萬萬沒想到,這次競賽自己要搞的是——植物學,
Herbarium 2021 - Half-Earth Challenge,屬于“大規模實體級物體識別”的技術域,比賽資料集為從多個大型植物園收集的美洲、大洋洲等半個地球的6.5W類2.5M張植物樣本圖片,用于訓練植物識別演算法,輔助植物學家進行植物識別,發現和保護新物種,
不同于元年作業中對于淘寶商品的識別判斷,植物的分科和類別相當細致,分辨不同植物需要專業的知識,視覺上區分的難度很高;另外,資料集的樣本極度不均衡,最少的類別僅有3張樣本,如何提升長尾類別準確率是這場競賽的核心難題,

???? 大型“六親不認”現場
“我們把一些結果可視化出來后,大家都忍不住吐槽,這堆草到底有什么區別?!”
(難為這些口紅顏色都無法辨認的演算法直男們)
元年率領的競賽小分隊,此次一共參加了 CVPR 3項不同的競賽,當隊友埋在一堆綠油油的圖片里崩潰時,勸他說,要不我們放棄這項,把更多精力投入到別的賽程上去,“暴力青年”元年斬釘截鐵地拒絕了,
在他的觀念里,演算法本身就是快速除錯問題,以方便你找到下一個問題,至此,他們開始了這次 38 次比賽結果提交之路,
技術人的極客精神:同時玩3個也不帶怕的
原本對于“實體級物體識別”這個領域,元年是有著自己的驕傲和信心的,
在做淘寶直播看點的業務期間,要求將商品和直播間關聯起來,用戶點擊商品就能跳轉到正在講解的直播間,淘系多媒體演算法團隊在檢索商品的領域已經有了相當好的方案,此前相關領域比賽也有比較高的資料指標,當他們用類似方案跑本次比賽資料時,一刷準確率,卻不到70,

淘寶直播看點背后的商品識別演算法
“分類和檢索還是不一樣,我們經過研究發現,必須要把特征的學習和分類解耦開,正是這個思想,我們掌握到了這次比賽的黑科技,”
這也是“獅子”元年帶給小伙伴們最大鼓勵的地方,無論在看起來多么“窮途末路”的情況下,他總能源源不斷提出新的想法和策略,并且現場發散出更多,
“要是想早點吃飯,開會的時候就別讓元年說話,” 隊友蘭枻哭笑不得,
主管濟宇對元年的這份源源不斷的活力和突破精神也深有感觸,2018年元年校招入職,濟宇直接將一個重要的業務需求丟過去,并告知2個月上線,毫無作業經驗且無辜的元年一個半月完成了工程問題和演算法部署;2019年初,他要求體現一下技術深度,隨即元年以一作的身份發了兩篇論文;現在,當他想著,為什么不打個比賽呢?于是元年帶隊在CVPR的三個賽道分別拿下冠軍、亞軍和季軍,
元年小組另兩項比賽是Hotel-ID 2021-Hotel Recognition Challenge 和 Evoked Expressions from Videos (EEV) Challenge ,大家都是剛畢業幾年的同學,既要保證不耽誤手頭的業務,還要同時推進三項比賽,這對于大家比賽期間的時間和精力管控,提出了更大的挑戰,
要是機器會講話,它可能感受最深刻,并想跳起來打人,
“因為資源有限,我們的原則是一定不能讓機器閑著,跑完一個就下一個,啥時候跑上新任務,我們啥時候睡,周末也不例外,”
元年小組對于3項比賽做了側重點分工,每個小伙伴都有自己重點參賽專案和獨立跟進的部分,并保持著【方案嘗試-問題總結-交流提升】的協同操作模式,元年則保持著對每項比賽進展和下一步方案的調研研究,
“我的伙伴們真的很給力,比如蘭枻,我們的模型訓練日志都是放在OSS上,他瘋狂到把所有的日志都發送到手機上,方便實時刷資料結果,就算是凌晨兩三點看到資料有異樣,彈起來就拿電腦,這也是我們技術人的極客精神吧,”
不負有心人,Half-Earth Challenge 這一場最終憑借領先亞軍2.2%的優勢,一舉獲得冠軍,另兩場也分別取得了第二、第三的好成績,這是元年小組首次在視覺影像維度嘗試實體級檢索,未來他希望可以拓展到內容檢索這個更大的范疇,一方面通過多模態的資訊更好的去理解用戶的檢索意圖,另一方面結合多模態資訊實作更好的視頻內容多維度表征,在對跨模態學習、因果知識解耦等眾多基礎問題的不斷探索和攻克中,用技術的突破為淘寶用戶帶來更好的內容消費體驗,

Half-Earth Challenge 比賽結果
跨領域學習“超能力”如何煉成?
4年前,還在北大低溫量子實驗室的儀器旁,偷偷用零下兩百度的液氮凍水果的元年,絕對沒有想到,未來的他搞起了計算機視覺演算法,
物理是相對“枯燥”和偉大的學科,需要漫長的時間實驗和提煉,元年眼睜睜看著他入學初始,一個從他開始搭建儀器的問題,直到他博士畢業,師弟師妹們還在攻克這個……他開始思考如何能找到反饋比較快的方式實作自己的人生價值,
“我的偶像是鋼鐵俠馬斯克,他在太空探索、汽車、能源、高鐵、互聯網、人工智能等領域都做出了顛覆性的成績,”
自詡為“物理里面會搞計算機,計算機里面懂物理”的元年,和他的偶像一樣,關鍵點是 get 了一種名為【遷移學習】的能力,
馬斯克發表在 Reddit AMA 上的回答曾經描述過,他有2個步驟實作這種超人般的領域互通,首先,學會把知識解構為若干基本原理,就像一棵大樹確保理解樹干;其次,將這些基礎原理在新的領域重構,不斷問自己兩個問題:“它讓我想到了什么”以及“為什么會讓我想到它”,
當學會在更抽象的層次中去思考問題的共通點時,我們更能理解到天才并不是天賦異稟,而是有更加科學正確的學習技巧,
當然,實在鴨梨山大想不明白的時候,元年就喜歡去徒步和登山,同樣是物理系的硬核老婆,也會陪著他自駕西藏,在廣袤的天地山河間,思想是破碎還是重組,都不是事兒,

硬核元年和硬核老婆在西藏(狗糧的味道)
沒事,“學霸”也是德州撲克輸最多的
意外的是,相比他處女座水瓶座摩羯座的隊友們,這只獅子玩起德撲來,基本是送錢的“小可愛”,
“他就是,如果一開始看自己牌面很好,就突然加很多籌碼,最后都給我們做貢獻了,”好基友蘭枻作為穩健派,忍不住吐槽,
對此,元年一本正經地表示:對于玩起來容易上頭的游戲,一定不要想那么多,上頭就對了,(好的,我們信了)
不同于大家對學霸人群“高分高能,學啥玩啥都厲害”,或者“高分低能,成績優秀以外一無是處”的兩級印象,元年屬于通通透透的第三種:好玩就行,玩好就行,他既沒有投入專注的思維和技巧一定要“玩”出極致的水平,也不是笨拙呆板還負有 social 的精神壓力,
玩是人類的本質、天分、快樂與基礎,也是熱情、創造和想象力誕生的搖籃,不管是認真還是隨意,只要保持著輕松快樂的心態,得到精神的放松和愉悅,才對得起自己的人生,
生命長青,好玩至上,作業與休息都是,
????橙子說
看完北大博士的競賽體驗,你悟到了什么?
留言區聊聊啊~
? 拓展閱讀

作者|淘系技術
編輯|橙子君
出品|阿里巴巴新零售淘系技術


轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/289652.html
標籤:其他
