tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using XLM-T, Google Translate, and Ensemble Learning

要約

タイトル:tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using XLM-T, Google Translate, and Ensemble Learning

要約:
– 本論文は、SemEval-2023のTask 9である「多言語ツイート親密度分析」に向けて設計されたトランスフォーマーベースのシステムについて説明している。
– Taskの目的は、1(全く親密ではない)から5(非常に親密な)の範囲内でツイートの親密度を予測することである。
– 競技の公式トレーニングセットには、英語、スペイン語、イタリア語、ポルトガル語、フランス語、中国語の6言語のツイートが含まれていた。
– テストセットには、トレーニングセットには含まれていない4つの言語(ヒンディー語、アラビア語、オランダ語、韓国語)を含め、与えられた6つの言語が含まれていた。
– XLM-T、Twitterドメインに適応されたマルチリンガルRoBERTaモデルのアンサンブルに基づく解決策を提供した。
– 見知らぬ言語のパフォーマンスを改善するために、各ツイートには英語に翻訳されたデータが加えられた。
– 翻訳データを使用するための戦略や、見過ごされた言語に対する翻訳データの効果を検討した。
– 提案されたシステムは、テストセット全体で0.599のPearson’s rを達成し、リーダーボードで4位にランクされた。
– 提出された45のスコアに平均を取ったスコアよりも、最大0.088 Pearson’s rを改善した。

要約(オリジナル)

The paper describes a transformer-based system designed for SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysis. The purpose of the task was to predict the intimacy of tweets in a range from 1 (not intimate at all) to 5 (very intimate). The official training set for the competition consisted of tweets in six languages (English, Spanish, Italian, Portuguese, French, and Chinese). The test set included the given six languages as well as external data with four languages not presented in the training set (Hindi, Arabic, Dutch, and Korean). We presented a solution based on an ensemble of XLM-T, a multilingual RoBERTa model adapted to the Twitter domain. To improve the performance of unseen languages, each tweet was supplemented by its English translation. We explored the effectiveness of translated data for the languages seen in fine-tuning compared to unseen languages and estimated strategies for using translated data in transformer-based models. Our solution ranked 4th on the leaderboard while achieving an overall Pearson’s r of 0.599 over the test set. The proposed system improves up to 0.088 Pearson’s r over a score averaged across all 45 submissions.

arxiv情報

著者 Anna Glazkova
発行日 2023-04-08 15:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, cs.LG, I.2.7 パーマリンク