要約
質問応答 (QA) は、特定の文章から抽出された自由形式の自然言語の回答を使用して、自然言語で提起された質問に答えるタスクです。
OpenQA のバリアントでは、質問テキストのみが提供され、システムは非構造化知識ソースから関連する文章を取得し、それらを使用して回答を提供する必要があります。これは、Web 上の主流の QA システムの場合です。
英語以外の言語の大規模なラベル付き QA データセットが不足しているため、QA システムは現在、ほとんど英語に限定されています。
この論文では、低リソース言語向けに効果的で低コストの OpenQA システムを開発できることを示します。
重要な要素は、(1) 機械翻訳されたラベル付きデータセットを使用した弱い監視、および (2) ターゲット言語での関連する非構造化知識ソースです。
さらに、これらのシステムを確実に評価するには、数百の金評価例のみが必要であることを示します。
英語とトルコ語は類型的に非常に異なるため、私たちは挑戦的なケーススタディとしてこの方法をトルコ語に適用します。
私たちは SQuAD2.0 の機械翻訳である SQuAD-TR を提示し、ColBERT-QA をトルコ語に適応させて OpenQA システムを構築します。
2 年間にわたる 2 つのバージョンの Wikipedia ダンプを使用することで、BM25 ベースおよび DPR ベースのベースライン QA リーダー モデルと比較して、EM スコアで 9 ~ 34%、F1 スコアで 13 ~ 33% のパフォーマンス向上が得られました。
私たちの結果は、SQuAD-TR によってトルコ語でも OpenQA が実現可能になることが示されており、研究者が他の低リソース言語で OpenQA システムを構築することを奨励することを期待しています。
すべてのコード、モデル、データセットを公開します。
要約(オリジナル)
Question answering (QA) is the task of answering questions posed in natural language with free-form natural language answers extracted from a given passage. In the OpenQA variant, only a question text is given, and the system must retrieve relevant passages from an unstructured knowledge source and use them to provide answers, which is the case in the mainstream QA systems on the Web. QA systems currently are mostly limited to the English language due to the lack of large-scale labeled QA datasets in non-English languages. In this paper, we show that effective, low-cost OpenQA systems can be developed for low-resource languages. The key ingredients are (1) weak supervision using machine-translated labeled datasets and (2) a relevant unstructured knowledge source in the target language. Furthermore, we show that only a few hundred gold assessment examples are needed to reliably evaluate these systems. We apply our method to Turkish as a challenging case study, since English and Turkish are typologically very distinct. We present SQuAD-TR, a machine translation of SQuAD2.0, and we build our OpenQA system by adapting ColBERT-QA for Turkish. We obtain a performance improvement of 9-34% in the EM score and 13-33% in the F1 score compared to the BM25-based and DPR-based baseline QA reader models by using two versions of Wikipedia dumps spanning two years. Our results show that SQuAD-TR makes OpenQA feasible for Turkish, which we hope encourages researchers to build OpenQA systems in other low-resource languages. We make all the code, models, and the dataset publicly available.
arxiv情報
著者 | Emrah Budur,Rıza Özçelik,Dilara Soylu,Omar Khattab,Tunga Güngör,Christopher Potts |
発行日 | 2024-01-07 22:11:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google