要約
この論文では、SemEval-2024 タスク 1: アフリカおよびアジア言語の意味論的テキスト関連性のために開発されたシステムを紹介します。
共有タスクは、過小評価されているさまざまな言語に焦点を当てて、文のペア間の意味論的なテキストの関連性を測定することを目的としています。
この研究では、限られたトレーニング データによる低リソースの課題に対処するために、データ拡張に機械翻訳を使用することを提案します。
さらに、ラベルのないタスク データにタスク適応型事前トレーニングを適用して、事前トレーニングとタスク適応の間のギャップを埋めます。
モデルのトレーニングでは、完全な微調整とアダプターベースの調整の両方を調査し、効果的なゼロショットの言語間転送のためにアダプター フレームワークを採用します。
私たちは共有タスクで競争力のある結果を達成しました。私たちのシステムは、サブタスク A (教師あり学習) とサブタスク C (言語間伝達) の両方で、ランク付けされたすべてのチームの中で最高のパフォーマンスを発揮しました。
要約(オリジナル)
This paper presents our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages. The shared task aims at measuring the semantic textual relatedness between pairs of sentences, with a focus on a range of under-represented languages. In this work, we propose using machine translation for data augmentation to address the low-resource challenge of limited training data. Moreover, we apply task-adaptive pre-training on unlabeled task data to bridge the gap between pre-training and task adaptation. For model training, we investigate both full fine-tuning and adapter-based tuning, and adopt the adapter framework for effective zero-shot cross-lingual transfer. We achieve competitive results in the shared task: our system performs the best among all ranked teams in both subtask A (supervised learning) and subtask C (cross-lingual transfer).
arxiv情報
著者 | Miaoran Zhang,Mingyang Wang,Jesujoba O. Alabi,Dietrich Klakow |
発行日 | 2024-06-07 14:02:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google