要約
大規模な言語モデル(LLMS)は、多肢選択の質問(QA)タスクとしてしばしば構成される挑戦的なベンチマークで顕著なパフォーマンスを実現します。
ゼロショットチェーンオブ考え(COT)プロンプトは、LLMSの推論を強化しますが、あいまいで一般的なガイダンスのみを提供します(「段階的に考えてください」)。
このペーパーでは、QA解決に3つの重要なステップを明示的に組み込んだ直感的で効果的なゼロショットプロンプトメソッドであるARRを紹介します。質問の意図の分析、関連情報の取得、推論の段階的な推論です。
多様で挑戦的なQAタスクにわたる包括的な実験は、ARRがベースラインを一貫して(ARRプロンプトなしで)改善し、COTを上回ることを示しています。
アブレーションとケーススタディは、各コンポーネントの肯定的な貢献をさらに検証します:分析、取得、推論。
特に、意図分析はarrで重要な役割を果たします。
さらに、さまざまなモデルサイズ、LLMシリーズ、および生成設定にわたる広範な評価が、arrの有効性、堅牢性、および一般化可能性を固めます。
要約(オリジナル)
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance (‘think step by step’). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.
arxiv情報
著者 | Yuwei Yin,Giuseppe Carenini |
発行日 | 2025-02-12 18:36:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google