Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time

要約

大規模な言語モデル(LLM)は、多くの場合、複雑な推論シナリオと格闘しています。
優先最適化方法は、トレーニングを通じて推論のパフォーマンスを向上させますが、ある理由が別の推論の結果よりも好まれる理由の透明性に欠けていることがよくあります。
口頭での反射技術は説明可能性を改善しますが、LLMSの批評と洗練能力に限られています。
これらの課題に対処するために、LLM生成された反射の精度と深さを高めるコントラストリフレクション合成パイプラインを導入します。
さらに、口頭での強化学習パラダイム内でデュアルモデルの推論フレームワークを提案し、推論時間の自己反省を、批評と改良を推論するための専門的な訓練されたモデルに分離します。
広範な実験は、私たちのフレームワークが、すべての評価メトリックにわたって従来の好みの最適化方法を上回ることを示しています。
また、私たちの調査結果は、「2つのヘッドが1つよりも優れている」ことを示しており、シングルモデルのアプローチと比較して、コラボレーションの推論批判モデルが優れた推論パフォーマンスと透明性を達成することを示しています。

要約(オリジナル)

Large Language Models (LLMs) often struggle with complex reasoning scenarios. While preference optimization methods enhance reasoning performance through training, they often lack transparency in why one reasoning outcome is preferred over another. Verbal reflection techniques improve explainability but are limited in LLMs’ critique and refinement capacity. To address these challenges, we introduce a contrastive reflection synthesis pipeline that enhances the accuracy and depth of LLM-generated reflections. We further propose a dual-model reasoning framework within a verbal reinforcement learning paradigm, decoupling inference-time self-reflection into specialized, trained models for reasoning critique and refinement. Extensive experiments show that our framework outperforms traditional preference optimization methods across all evaluation metrics. Our findings also show that ‘two heads are better than one’, demonstrating that a collaborative Reasoner-Critic model achieves superior reasoning performance and transparency, compared to single-model approaches.

arxiv情報

著者 Jiazheng Li,Yuxiang Zhou,Junru Lu,Gladys Tyen,Lin Gui,Cesare Aloisi,Yulan He
発行日 2025-02-26 15:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク