要約
大規模な言語モデル(LLMS)は、複雑な評価ベンチマークで印象的な機能を実証しており、その多くは質問回答(QA)タスクとして策定されています。
QAコンテキストでLLMSのパフォーマンスを向上させることは、開発と適用性を向上させるためにますます不可欠になっています。
このペーパーでは、質問の意図の分析、関連情報の取得、推論の3つの重要な手順を明示的に組み込んだ直感的で効果的な一般的なQA解決方法であるARRを紹介します。
特に、この論文は、QAで意図分析を導入した最初の論文であり、arrで重要な役割を果たしています。
10の多様なQAタスクにわたる包括的な評価は、ARRがベースラインメソッドを常に上回ることを示しています。
アブレーションとケーススタディは、各ARRコンポーネントの肯定的な貢献をさらに検証します。
さらに、迅速な設計のバリエーションを含む実験は、ARRが特定の迅速な定式化に関係なくその有効性を維持することを示しています。
さらに、さまざまなモデルサイズ、LLMシリーズ、および生成設定にわたる広範な評価が、arrの有効性、堅牢性、および一般化可能性を固めます。
要約(オリジナル)
Large language models (LLMs) have demonstrated impressive capabilities on complex evaluation benchmarks, many of which are formulated as question-answering (QA) tasks. Enhancing the performance of LLMs in QA contexts is becoming increasingly vital for advancing their development and applicability. This paper introduces ARR, an intuitive, effective, and general QA solving method that explicitly incorporates three key steps: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Notably, this paper is the first to introduce intent analysis in QA, which plays a vital role in ARR. Comprehensive evaluations across 10 diverse QA tasks demonstrate that ARR consistently outperforms the baseline methods. Ablation and case studies further validate the positive contributions of each ARR component. Furthermore, experiments involving variations in prompt design indicate that ARR maintains its effectiveness regardless of the specific prompt formulation. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.
arxiv情報
著者 | Yuwei Yin,Giuseppe Carenini |
発行日 | 2025-05-15 17:52:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google