要約
この論文では、2025 年の VarDial ワークショップ (Scherrer et al., 2025) の一部として、NorSID 共有タスクへの提案を紹介します。このタスクは、意図検出、スロット充填、方言識別の 3 つのタスクで構成され、言語のさまざまな方言のデータを使用して評価されます。
ノルウェー語。
インテント検出とスロット充填については、17 言語で利用可能な xSID データセットを活用するために、言語をまたがる設定でマルチタスク モデルを微調整しました。
方言識別の場合、最終的な提出物は、提供された開発セットに基づいて微調整されたモデルで構成され、実験内で最高スコアを獲得しました。
テスト セットの最終結果は、モデルが開発セットと比較してパフォーマンスが低下していないことを示しています。これは、おそらくデータセットのドメイン特異性と、両方のサブセットの分布が類似しているためと考えられます。
最後に、提供されたデータセットとそのアーティファクト、および実行されたものの最良の結果が得られなかった他の一連の実験の詳細な分析も報告します。
さらに、いくつかの方法が他の方法よりも成功している理由についての分析も示します。
主に、言語の組み合わせとトレーニング データのドメイン特異性が結果に与える影響です。
要約(オリジナル)
In this paper we present our submission for the NorSID Shared Task as part of the 2025 VarDial Workshop (Scherrer et al., 2025), consisting of three tasks: Intent Detection, Slot Filling and Dialect Identification, evaluated using data in different dialects of the Norwegian language. For Intent Detection and Slot Filling, we have fine-tuned a multitask model in a cross-lingual setting, to leverage the xSID dataset available in 17 languages. In the case of Dialect Identification, our final submission consists of a model fine-tuned on the provided development set, which has obtained the highest scores within our experiments. Our final results on the test set show that our models do not drop in performance compared to the development set, likely due to the domain-specificity of the dataset and the similar distribution of both subsets. Finally, we also report an in-depth analysis of the provided datasets and their artifacts, as well as other sets of experiments that have been carried out but did not yield the best results. Additionally, we present an analysis on the reasons why some methods have been more successful than others; mainly the impact of the combination of languages and domain-specificity of the training data on the results.
arxiv情報
著者 | Jaione Bengoetxea,Mikel Zubillaga,Ekhi Azurmendi,Maite Heredia,Julen Etxaniz,Markel Ferro,Jeremy Barnes |
発行日 | 2024-12-13 12:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google