Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision

要約

クロスリンガル質問応答 (CLQA) は、多言語知識ベースからのクロスリンガル検索と、その後の英語またはクエリ言語での回答生成で構成される複雑な問題です。
通常、両方のステップは別々のモデルによって取り組まれ、大量の注釈付きデータセットと、通常は言語間の橋渡しをする機械翻訳システムなどの補助リソースが必要になります。
この論文では、単一のエンコーダ/デコーダ モデルを使用して CLQA に対処できることを示します。
このモデルを効果的にトレーニングするために、Wikipedia 内の言語間リンク構造の活用に基づいた自己教師あり手法を提案します。
リンクされた Wikipedia ページを使用して、クローゼ クエリの形式を通じて言語を超えた検索のための監視シグナルを合成し、回答生成を監視するためのより自然なクエリを生成する方法を示します。
一緒に、私たちのアプローチ \texttt{CLASS} が、機械翻訳を使用するものも含め、教師あり言語適応設定とゼロショット言語適応設定の両方で同等の方法よりも優れていることを示します。

要約(オリジナル)

Cross-lingual question answering (CLQA) is a complex problem, comprising cross-lingual retrieval from a multilingual knowledge base, followed by answer generation either in English or the query language. Both steps are usually tackled by separate models, requiring substantial annotated datasets, and typically auxiliary resources, like machine translation systems to bridge between languages. In this paper, we show that CLQA can be addressed using a single encoder-decoder model. To effectively train this model, we propose a self-supervised method based on exploiting the cross-lingual link structure within Wikipedia. We demonstrate how linked Wikipedia pages can be used to synthesise supervisory signals for cross-lingual retrieval, through a form of cloze query, and generate more natural queries to supervise answer generation. Together, we show our approach, \texttt{CLASS}, outperforms comparable methods on both supervised and zero-shot language adaptation settings, including those using machine translation.

arxiv情報

著者 Fan Jiang,Tom Drummond,Trevor Cohn
発行日 2024-02-26 11:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク