PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale

要約

既存の質問応答 (QA) システムの成功の多くは、大規模で高品質のトレーニング データによるものです。
このような注釈の取り組みにはコストがかかり、言語をまたがる環境ではさらに困難が増します。
したがって、これまでの言語を超えた QA 作業では、評価データセットをリリースし、ゼロショット手法をベースラインとして適用することに重点が置かれていました。
この研究では、既存の並列コーパスからの間接的な監視を活用する、言語を超えた QA のための合成データ生成方法を提案します。
PAXQA (異言語 (x) QA のための注釈の投影) と呼ばれる私たちの方法は、異言語 QA を 2 つの段階に分解します。
まず、質問生成 (QG) モデルを英語側に適用します。
次に、注釈投影を適用して質問と回答の両方を翻訳します。
質問をより適切に翻訳するために、制約されたエンティティが並列バイテキストから抽出される、語彙的に制約された機械翻訳の新しい使用法を提案します。
PAXQA を適用して 4 つの言語でクロスリンガル QA サンプル (合計 662,000 個のサンプル) を生成し、サブセットに対して人間による評価を実行して検証とテストの分割を作成します。
次に、これらのデータセットに基づいて微調整されたモデルが、いくつかの抽出 QA データセットよりも以前の合成データ生成モデルよりも優れていることを示します。
パフォーマンスが最も向上するのは、英語以外の質問と英語のコンテキストを含む道順の場合です。
アブレーション研究では、私たちのデータセット生成方法が自動単語アライメントによるノイズに対して比較的堅牢であることが示されており、私たちの生成の十分な品質が示されています。
フォローアップ作業を容易にするために、コードとデータセットを https://github.com/manestay/paxqa でリリースします。

要約(オリジナル)

Existing question answering (QA) systems owe much of their success to large, high-quality training data. Such annotation efforts are costly, and the difficulty compounds in the cross-lingual setting. Therefore, prior cross-lingual QA work has focused on releasing evaluation datasets, and then applying zero-shot methods as baselines. This work proposes a synthetic data generation method for cross-lingual QA which leverages indirect supervision from existing parallel corpora. Our method termed PAXQA (Projecting annotations for cross-lingual (x) QA) decomposes cross-lingual QA into two stages. First, we apply a question generation (QG) model to the English side. Second, we apply annotation projection to translate both the questions and answers. To better translate questions, we propose a novel use of lexically-constrained machine translation, in which constrained entities are extracted from the parallel bitexts. We apply PAXQA to generate cross-lingual QA examples in 4 languages (662K examples total), and perform human evaluation on a subset to create validation and test splits. We then show that models fine-tuned on these datasets outperform prior synthetic data generation models over several extractive QA datasets. The largest performance gains are for directions with non-English questions and English contexts. Ablation studies show that our dataset generation method is relatively robust to noise from automatic word alignments, showing the sufficient quality of our generations. To facilitate follow-up work, we release our code and datasets at https://github.com/manestay/paxqa .

arxiv情報

著者 Bryan Li,Chris Callison-Burch
発行日 2023-10-17 15:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク