Promoting Generalized Cross-lingual Question Answering in Few-resource Scenarios via Self-knowledge Distillation

要約

多言語抽出型質問応答 (QA) は大幅に進歩していますが、言語間で均一に分散された高いパフォーマンスを持つモデルは、特にリソースが限られている言語では依然として困難です。
私たちは、質問言語が文脈言語と異なる一般化言語間伝達 (G-XLT) タスクに主に焦点を当てて、言語間伝達を研究しています。この課題は、これまであまり注目されていませんでした。
私たちのアプローチは、大規模なデータセットでトレーニングされた高性能の多言語モデルを使用し、言語間で調整された数千の QA 例によって補完され、言語間の QA 転送を強化することを目指しています。
私たちが提案する戦略は、言語を超えたサンプリングと、世代を超えた高度な自己蒸留トレーニングを組み合わせて、以前の課題に取り組みます。
特に、自己知識蒸留損失を微調整するために新しい mAP@k 係数を導入し、教師のモデル知識を動的に調整して、バランスの取れた効果的な知識伝達を実行します。
私たちは、抽出的 QA で XLT および G-XLT の機能を評価するアプローチを広範囲に評価しています。
結果は、自己知識蒸留アプローチが標準的なクロスエントロピー微調整よりも大幅に優れていることを示しています。
重要なのは、機械翻訳された大量のデータを活用する強力なベースラインと比較した場合、リソースに制約のある設定内で運用するという大きな課題にもかかわらず、たとえゼロショット シナリオであっても、当社のアプローチが競争力のある結果を示していることです。
パフォーマンスの向上を超えて、当社は包括的な分析とアブレーション研究を通じて貴重な洞察を提供し、当社のアプローチの利点と制約をさらに実証します。
本質的に、私たちは、いくつかのデータリソースを効率的な方法で活用することで、言語を超えた QA 転送を改善する実用的なソリューションを提案します。

要約(オリジナル)

Despite substantial progress in multilingual extractive Question Answering (QA), models with high and uniformly distributed performance across languages remain challenging, especially for languages with limited resources. We study cross-lingual transfer mainly focusing on the Generalized Cross-Lingual Transfer (G-XLT) task, where the question language differs from the context language – a challenge that has received limited attention thus far. Our approach seeks to enhance cross-lingual QA transfer using a high-performing multilingual model trained on a large-scale dataset, complemented by a few thousand aligned QA examples across languages. Our proposed strategy combines cross-lingual sampling and advanced self-distillation training in generations to tackle the previous challenge. Notably, we introduce the novel mAP@k coefficients to fine-tune self-knowledge distillation loss, dynamically regulating the teacher’s model knowledge to perform a balanced and effective knowledge transfer. We extensively evaluate our approach to assess XLT and G-XLT capabilities in extractive QA. Results reveal that our self-knowledge distillation approach outperforms standard cross-entropy fine-tuning by a significant margin. Importantly, when compared to a strong baseline that leverages a sizeable volume of machine-translated data, our approach shows competitive results despite the considerable challenge of operating within resource-constrained settings, even in zero-shot scenarios. Beyond performance improvements, we offer valuable insights through comprehensive analyses and an ablation study, further substantiating the benefits and constraints of our approach. In essence, we propose a practical solution to improve cross-lingual QA transfer by leveraging a few data resources in an efficient way.

arxiv情報

著者 Casimiro Pio Carrino,Carlos Escolano,José A. R. Fonollosa
発行日 2023-09-29 10:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク