桔妹導讀:深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧!
近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器翻譯大賽 WMT2020發布了所有團隊今年提交的Primary Submission的結果,通過官方提供的Reference資料以及評估腳本,每個參賽隊伍可以評估所有參賽隊伍的最終BLEU成績,滴滴AI Labs的NLP團隊在競爭最激烈的新聞中譯英賽道機器評測中成功斬獲世界第三,WMT是機器翻譯領域認可度最高的國際頂級評測比賽,從2006年創辦至今,每年都會吸引包括微軟、Facebook、DeepMind、百度、華為、騰訊、清華大學、上海交通大學、約翰霍普金斯大學、劍橋大學、愛丁堡大學等全球企業、科研機構以及頂級高校的參與,每次比賽都是各家機器翻譯實力的大比拼,也見證了行業機器翻譯技術的不斷進步,
此次滴滴NLP團隊參與的是WMT2020新聞機器翻譯賽道(Shared Task: Machine Translation of News),該賽道共設定了22項不同語言之間的翻譯任務,其中,中文到英文翻譯是競爭最激烈的任務,共吸引了DeepMind、騰訊、華為、清華大學、上海交通大學等四十多支全球參賽團隊參與,在6月24日至6月30日為期七天的比賽時間里,參賽團隊累計共提交了近300次資料,
與往年不同,今年新聞中譯英比賽參賽方均為匿名提交,比賽期間只能看到自己成績以及其他匿名參賽方成績,并且每個參賽方最多可以提交7次翻譯結果,比賽結束后各參賽方不可再次提交,各參賽方從所有提交中選擇其中一個提交結果作為Primary Submission供人工評估使用,
WMT組委會為每個語言賽道提供指定的雙語的訓練集以及單語語料,參賽方可以根據自己的模型利用相關的訓練集,比賽開始后組委會提供的單語的測驗集 (Source),參賽方利用自己的模型對測驗集的語言進行預測,然后提交至OCELoT系統,組委會利用SacreBLEU1指標對參賽方提交的譯文與組委會未公開的標準答案 (Reference) 進行計算,分數越高代表翻譯效果越好,
在本次中譯英賽道中,滴滴NLP團隊在技術上以Transformer2結構作為基礎,在結構上引入Self-Attention, Relative Positional Attention, Larger FFN Size等變化,利用迭代式回譯技術 (Iterative Back-translation) 和交替知識蒸餾 (Alternate Knowledge Distillation) 方法生成高質量的合成語料,結合資料清洗、資料選擇、模型集成等技術提高翻譯質量,考慮到翻譯話題對于翻譯質量的影響,滴滴翻譯還采用了領域遷移、話題挖掘和個性化加權的方式,使得翻譯結果更加個性化,此外,我們還通過EDA、權重剪枝等技術增強翻譯模型的魯棒性,最終滴滴翻譯高效準確的進行完成WMT2020中譯英賽道翻譯任務,并且最先獲得36.6的高分,最侄訓得第三名的成績,充分彰顯了滴滴在機器翻譯領域的技術實力,
目前,滴滴翻譯技術已經廣泛應用于國際化IM翻譯、國際化判責、國際化運營等業務場景,后續滴滴NLP團隊將不斷推進自然語言處理以及滴滴翻譯等相關技術的研究與落地,持續迭代模型,優化回應速度,供更高質量的翻譯服務,
References
1. Matt Post. 2018. A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 186–191, Belgium, Brussels. Association for Computational Linguistics.
2. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008.
團隊介紹
滴滴AI Labs NLP團隊關注于自然語言處理、機器翻譯、語音實時翻譯、語意分析等領域,成果應用于滴滴國際化司乘訊息翻譯、內容安全、智能客服等業務,
延伸閱讀
內容編輯 | Charlotte & Teeo
聯系我們 | [email protected]
滴滴技術 出品
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/1083.html
標籤:大數據
上一篇:滴滴資料通道服務演進之路