Datasets for Multilingual Answer Sentence Selection

要約

回答文選択 (AS2) は、効果的な検索ベースの質問応答 (QA) システムを設計するための重要なタスクです。
他の言語の注釈付きデータセットが不足しているため、AS2 のほとんどの進歩は英語に焦点を当てています。
このリソースの不足により、さまざまな言語での効果的な AS2 モデルのトレーニングが妨げられ、英語と他のロケールの QA システムの間にパフォーマンスのギャップが生じます。
このペーパーでは、ASNQ、WikiQA、ASNQ、WikiQA、
大規模言語モデル (LLM) を使用した TREC-QA。
私たちは、さまざまな Transformer アーキテクチャを使用した複数の実験を通じて、アプローチと変換されたデータセットの品質を評価しました。
結果は、私たちのデータセットが堅牢で強力な多言語 AS2 モデルを生成する上で極めて重要であり、英語と他の言語間のパフォーマンスのギャップを埋めるのに大きく貢献していることを示しています。

要約(オリジナル)

Answer Sentence Selection (AS2) is a critical task for designing effective retrieval-based Question Answering (QA) systems. Most advancements in AS2 focus on English due to the scarcity of annotated datasets for other languages. This lack of resources prevents the training of effective AS2 models in different languages, creating a performance gap between QA systems in English and other locales. In this paper, we introduce new high-quality datasets for AS2 in five European languages (French, German, Italian, Portuguese, and Spanish), obtained through supervised Automatic Machine Translation (AMT) of existing English AS2 datasets such as ASNQ, WikiQA, and TREC-QA using a Large Language Model (LLM). We evaluated our approach and the quality of the translated datasets through multiple experiments with different Transformer architectures. The results indicate that our datasets are pivotal in producing robust and powerful multilingual AS2 models, significantly contributing to closing the performance gap between English and other languages.

arxiv情報

著者 Matteo Gabburo,Stefano Campese,Federico Agostini,Alessandro Moschitti
発行日 2024-06-14 16:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク