要約
会話の質問回答(Convqa)には、複数のサブタスクが含まれます。i)コンテキストで不完全な質問を理解する、ii)関連情報を取得する、iii)回答を生成する。
この作業は、3つのサブタスクのそれぞれのLLMアダプターを訓練するConvqa向けのパイプラインベースのアプローチである賞賛を提示します。
個々のサブタスクのラベル付きトレーニングデータは実際には利用できません。賞賛は、人間の介入なしのフィードバック信号として最終的な回答パフォーマンスを使用して、独自の世代から学習し、関連する証拠のような中間情報を弱くラベル付けされたデータとして扱います。
サブタスクごとに成功したサンプルと失敗したサンプルを対比することにより、直接優先最適化を適用します。
実験では、このトレーニングパラダイムの有効性を示します。賞賛はサブタスクあたりの改善を示し、ベースラインで15.5パーセントポイント増加することにより、人気のあるConvqaベンチマークで新しい最先端のパフォーマンスを達成します。
要約(オリジナル)
Conversational Question Answering (ConvQA) involves multiple subtasks, i) to understand incomplete questions in their context, ii) to retrieve relevant information, and iii) to generate answers. This work presents PRAISE, a pipeline-based approach for ConvQA that trains LLM adapters for each of the three subtasks. As labeled training data for individual subtasks is unavailable in practice, PRAISE learns from its own generations using the final answering performance as feedback signal without human intervention and treats intermediate information, like relevant evidence, as weakly labeled data. We apply Direct Preference Optimization by contrasting successful and unsuccessful samples for each subtask. In our experiments, we show the effectiveness of this training paradigm: PRAISE shows improvements per subtask and achieves new state-of-the-art performance on a popular ConvQA benchmark, by gaining 15.5 percentage points increase in precision over baselines.
arxiv情報
著者 | Magdalena Kaiser,Gerhard Weikum |
発行日 | 2025-03-28 10:26:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google