EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

要約

大規模な言語モデル(LLM)は、数学やコーディングなどの明確なソリューションに関する明確な問題に印象的な推論能力を示しています。
しかし、彼らは依然として、戦略的な推論が必要なビジネス交渉のような複雑な現実世界のシナリオと格闘しています。動的環境をナビゲートし、不確実性の中で長期的な目標を調整する能力です。
戦略的推論のための既存の方法は、適応性、スケーラビリティ、および戦略の転送における課題に直面しています。
これらの問題に対処するために、戦略的推論のための明示的なポリシー最適化(EPO)を提案します。これは、オープンエンドアクションスペースで戦略を提供し、目標指向の動作を動機付けるために任意のLLMエージェントにプラグインできるLLMを特徴としています。
適応性とポリシーの移転性を向上させるために、プロセスの報酬と反復自己プレイを使用して、マルチターン補強学習(RL)を介して戦略的推論モデルをトレーニングします。
社会的および物理的な領域全体の実験は、戦略的推論の強化を通じて長期目標アライメントのEPOの能力を示し、社会的対話とWebナビゲーションタスクで最先端のパフォーマンスを達成します。
私たちの調査結果は、EPOに登場するさまざまな共同推論メカニズムと、新しい戦略を生成する際のその有効性を明らかにし、実際のアプリケーションでの戦略的推論の可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive reasoning capabilities in well-defined problems with clear solutions, such as mathematics and coding. However, they still struggle with complex real-world scenarios like business negotiations, which require strategic reasoning-an ability to navigate dynamic environments and align long-term goals amidst uncertainty. Existing methods for strategic reasoning face challenges in adaptability, scalability, and transferring strategies to new contexts. To address these issues, we propose explicit policy optimization (EPO) for strategic reasoning, featuring an LLM that provides strategies in open-ended action space and can be plugged into arbitrary LLM agents to motivate goal-directed behavior. To improve adaptability and policy transferability, we train the strategic reasoning model via multi-turn reinforcement learning (RL) using process rewards and iterative self-play, without supervised fine-tuning (SFT) as a preliminary step. Experiments across social and physical domains demonstrate EPO’s ability of long-term goal alignment through enhanced strategic reasoning, achieving state-of-the-art performance on social dialogue and web navigation tasks. Our findings reveal various collaborative reasoning mechanisms emergent in EPO and its effectiveness in generating novel strategies, underscoring its potential for strategic reasoning in real-world applications.

arxiv情報

著者 Xiaoqian Liu,Ke Wang,Yongbin Li,Yuchuan Wu,Wentao Ma,Aobo Kong,Fei Huang,Jianbin Jiao,Junge Zhang
発行日 2025-03-14 13:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク