要約
この文書では、「ニュアンス付きアラビア方言識別 (NADI) 共有タスク 2023」に対するアプローチを紹介します。
国レベルの方言の識別を扱うサブタスク 1 の方法論を強調します。
方言の認識は、音声認識や翻訳など、さまざまな下流の NLP タスクのパフォーマンスを向上させるのに役立ちます。
このタスクでは、マルチクラス分類問題に対して 18 の方言を含む Twitter データセット (TWT-2023) を使用します。
国レベルの方言を識別するために、アラビア語で事前トレーニングされた多数のトランスフォーマーベースのモデルが採用されています。
提供されたデータセットに基づいてこれらの最先端のモデルを微調整します。
アンサンブル手法を利用して、システムのパフォーマンスが向上します。
テスト データセットでは、F1 スコア 76.65 (リーダーボードで 11 位) を達成しました。
要約(オリジナル)
In this paper, we present our approach for the ‘Nuanced Arabic Dialect Identification (NADI) Shared Task 2023’. We highlight our methodology for subtask 1 which deals with country-level dialect identification. Recognizing dialects plays an instrumental role in enhancing the performance of various downstream NLP tasks such as speech recognition and translation. The task uses the Twitter dataset (TWT-2023) that encompasses 18 dialects for the multi-class classification problem. Numerous transformer-based models, pre-trained on Arabic language, are employed for identifying country-level dialects. We fine-tune these state-of-the-art models on the provided dataset. The ensembling method is leveraged to yield improved performance of the system. We achieved an F1-score of 76.65 (11th rank on the leaderboard) on the test dataset.
arxiv情報
著者 | Vedant Deshpande,Yash Patwardhan,Kshitij Deshpande,Sudeep Mangalvedhekar,Ravindra Murumkar |
発行日 | 2023-11-30 17:37:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google