Robust Training for Conversational Question Answering Models with Reinforced Reformulation Generation

要約

ナレッジ グラフ (KG) を介した会話型質問応答 (ConvQA) のモデルは、通常、ゴールド QA ペアのベンチマークでトレーニングおよびテストされます。
これは、トレーニングがそれぞれのデータセットに見られる表面形式に限定され、評価は保留された少数の質問セットに基づいて行われることを意味します。
私たちが提案するフレームワーク REIGN を通じて、この制限された学習設定を改善するためにいくつかの手順を実行します。
まず、トレーニング質問の再定式化を体系的に生成して、表面形状の変動に対するモデルの堅牢性を高めます。
このような質問は不完全な性質を持っているため、これは特に難しい問題です。
次に、深層強化学習を使用して、応答品質の向上に役立つ再定式化のみを ConvQA モデルに供給することで、ConvQA モデルのパフォーマンスを向上させます。
3 番目に、主要なモデル コンポーネントを 1 つのベンチマークでトレーニングし、それらを別のベンチマークにゼロショットで適用する実行可能性を実証します。
最後に、トレーニングされたモデルの堅牢性を厳密に評価するために、ベンチマーク テスト セットに対して GPT をプロンプトすることによって生成された多数の多様な再定式化を使用し、リリースします (結果としてサイズが 20 倍に増加します)。
私たちの調査結果は、再定式化による堅牢なトレーニングを使用した ConvQA モデルが、ゴールド QA ペアのみからの標準トレーニングを使用したモデルよりも大幅に優れていることを示しています。

要約(オリジナル)

Models for conversational question answering (ConvQA) over knowledge graphs (KGs) are usually trained and tested on benchmarks of gold QA pairs. This implies that training is limited to surface forms seen in the respective datasets, and evaluation is on a small set of held-out questions. Through our proposed framework REIGN, we take several steps to remedy this restricted learning setup. First, we systematically generate reformulations of training questions to increase robustness of models to surface form variations. This is a particularly challenging problem, given the incomplete nature of such questions. Second, we guide ConvQA models towards higher performance by feeding it only those reformulations that help improve their answering quality, using deep reinforcement learning. Third, we demonstrate the viability of training major model components on one benchmark and applying them zero-shot to another. Finally, for a rigorous evaluation of robustness for trained models, we use and release large numbers of diverse reformulations generated by prompting GPT for benchmark test sets (resulting in 20x increase in sizes). Our findings show that ConvQA models with robust training via reformulations, significantly outperform those with standard training from gold QA pairs only.

arxiv情報

著者 Magdalena Kaiser,Rishiraj Saha Roy,Gerhard Weikum
発行日 2023-10-20 13:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク