Combining Data Generation and Active Learning for Low-Resource Question Answering

要約

ニューラル アプローチは質問応答 (QA) で非常に人気がありますが、大量の注釈付きデータが必要です。
この研究では、ターゲット ドメインがソース ドメインとの難易度や類似性の点で多様である低リソース環境でのパフォーマンスを向上させるために、質問応答生成によるデータ拡張とアクティブ ラーニングを組み合わせた新しいアプローチを提案します。
また、さまざまな段階での質問応答のためのアクティブ ラーニングも調査し、人間による注釈の労力を全体的に削減します。
この目的のために、私たちは、アノテーション付きサンプルの量が非常に少ないものの、ラベルのないドキュメントが多く含まれる現実的な設定でターゲット ドメインを検討します。これらのドキュメントは、ほとんど努力せずに取得できると想定されます。
さらに、ソース ドメインからの十分な量のラベル付きデータが利用可能であることを前提としています。
私たちは広範な実験を行って、ドメインの専門家を組み込むための最適な設定を見つけます。
私たちの調査結果は、人間がデータ生成アプローチに組み込まれている新しいアプローチが、リソースが少ないドメイン固有の設定でパフォーマンスを向上させ、新しい特殊なドメインでのラベル付けの労力が少ない質問応答システムを可能にすることを示しています。
さらに、人間によるアノテーションが、実行される段階に応じて QA のパフォーマンスにどのような影響を与えるかを示しています。

要約(オリジナル)

Neural approaches have become very popular in Question Answering (QA), however, they require a large amount of annotated data. In this work, we propose a novel approach that combines data augmentation via question-answer generation with Active Learning to improve performance in low-resource settings, where the target domains are diverse in terms of difficulty and similarity to the source domain. We also investigate Active Learning for question answering in different stages, overall reducing the annotation effort of humans. For this purpose, we consider target domains in realistic settings, with an extremely low amount of annotated samples but with many unlabeled documents, which we assume can be obtained with little effort. Additionally, we assume a sufficient amount of labeled data from the source domain being available. We perform extensive experiments to find the best setup for incorporating domain experts. Our findings show that our novel approach, where humans are incorporated in a data generation approach, boosts performance in the low-resource, domain-specific setting, allowing for low-labeling-effort question answering systems in new, specialized domains. They further demonstrate how human annotation affects the performance of QA depending on the stage it is performed.

arxiv情報

著者 Maximilian Kimmich,Andrea Bartezzaghi,Jasmina Bogojeska,Cristiano Malossi,Ngoc Thang Vu
発行日 2024-09-13 14:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク