要約
私たちは、ドメイン専門化された推論の青写真を介して大規模な言語モデルの指導を大幅に改善する斬新な構造化された推論アプローチである、注意深い推論クエリ(ARQ)を提示します。
LLMは多様なタスク全体で顕著な機能を示していますが、多ターン会話中に複雑でユースケース固有の指示への順守を維持できないことが多く、ビジネス批判的なアプリケーションの課題を提示します。
ARQSは、重要な指示を回復し、完了プロセス全体の中間推論を促進するターゲットクエリを使用して、体系的な推論ステップを通じてLLMを導くことにより、この制限に対処します。
Parlant内での広範なテストでは、ARQが必然的に生まれた信頼できる顧客向けエージェントのフレームワークでは、87のテストシナリオで90.2%の成功率を達成し、考え方の推論(86.1%)と直接的な応答の生成(81.5%)を上回りました。
ARQは、ガイドラインの再利用や幻覚防止などの永続的な障害モードに対処する際に特定の強さを示しました。
また、私たちの分析により、ARQは、慎重に設計された場合、自由形式の推論よりも計算効率が高い可能性があることが明らかになりました。
これらの調査結果は、構造化された推論アプローチが、LLMSが情報を処理する方法を制御し、複雑なシナリオで決定を下すための効果的なメカニズムを提供することを示しています。
要約(オリジナル)
We present Attentive Reasoning Queries (ARQs), a novel structured reasoning approach that significantly improves instruction-following in Large Language Models through domain-specialized reasoning blueprints. While LLMs demonstrate remarkable capabilities across diverse tasks, they often fail to maintain adherence to complex, use-case-specific instructions during multi-turn conversations, presenting challenges for business-critical applications. ARQs address this limitation by guiding LLMs through systematic reasoning steps with targeted queries that reinstate critical instructions and facilitate intermediate reasoning throughout the completion process. In extensive testing within Parlant, our framework for reliable customer-facing agents in which ARQs were born out of necessity, they achieved a 90.2% success rate across 87 test scenarios, outperforming both Chain-of-Thought reasoning (86.1%) and direct response generation (81.5%). ARQs showed particular strength in addressing persistent failure modes like guideline re-application and hallucination prevention. Our analysis also revealed that ARQs can potentially be more computationally efficient than free-form reasoning when carefully designed. These findings demonstrate that structured reasoning approaches provide effective mechanisms for controlling how LLMs process information and make decisions in complex scenarios.
arxiv情報
著者 | Bar Karov,Dor Zohar,Yam Marcovitz |
発行日 | 2025-03-05 17:03:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google