Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

要約

効果的なソーシャルインテリジェンスシミュレーションでは、言語エージェントが推論の深さを動的に調整する必要があります。これは、現在のアプローチには特に存在しません。
既存の方法は、この種の推論能力を欠いているか、すべてのシナリオで均一な長い考え方の推論を実施するため、過度のトークンの使用と不適切な社会シミュレーションが生じます。
この論文では、$ \ textbf {a} $ daptive $ \ textbf {m} $ ode $ \ textbf {l} $ hearning($ \ textbf {aml} $)を提案します。
フレームワークのコアイノベーション、$ \ textbf {a} $ daptive $ \ textbf {m} $ ode $ \ textbf {p} $ olicy $ \ textbf {o} $ ptimization($ \ textbf {ampo} $)algorithm、既存の前進を紹介します。
社会的相互作用全体のコンテキスト対応モードの切り替え、および(3)深度適応処理によるトークン効率の高い推論。
ソーシャルインテリジェンスタスクに関する広範な実験では、AMLが最先端の方法よりも15.6%高いタスクパフォ​​ーマンスを達成していることが確認されています。
特に、私たちの方法は、32.8%の短い推論チェーンでGRPOを7.0%上回ることです。
これらの結果は、AMPOで実装されているように、コンテキストに敏感な思考モードの選択により、GRPOの固定されたアプローチよりも人間のような適応推論が可能になることを示しています。

要約(オリジナル)

Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$) that strategically selects from four thinking modes (intuitive reaction $\rightarrow$ deep contemplation) based on real-time context. Our framework’s core innovation, the $\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO’s fixed-depth approach.

arxiv情報

著者 Minzheng Wang,Yongbin Li,Haobo Wang,Xinghua Zhang,Nan Xu,Bingli Wu,Fei Huang,Haiyang Yu,Wenji Mao
発行日 2025-05-06 09:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク