ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs

要約

大規模な言語モデル(LLM)のトレーニング後の段階で適用されるルールベースの強化学習(RL)の最近の進歩により、数学や論理的推論などの構造化された推論タスクの能力が大幅に向上しました。
しかし、社会的推論におけるRLの有効性、特に他人の精神状態を推測する能力である心の理論(TOM)における有効性は、ほとんど未踏のままです。
この研究では、RLメソッドが小規模なLLM(0.5Bから7Bパラメーター)でもTOM推論能力を効果的にロック解除することを実証します。
多様なシナリオ全体で3200の質問を含む控えめなデータセットを使用して、RLトレーニングを受けた7Bモデルは、パラメーターが大幅に少ないにもかかわらず、GPT-4OやDeepSeek-V3などのモデルを上回るHI-TOMベンチマークで84.50 \%の精度を達成します。
小規模なモデル($ \ leq $ 3bパラメーター)は推論の崩壊に悩まされていますが、より大きなモデル(7bパラメーター)は、一貫した信念追跡を通じて安定した性能を維持します。
さらに、RLベースのモデルは、高次の分散型TOM問題、新しいテキストプレゼンテーション、以前に見えないデータセットへの堅牢な一般化を示しています。
これらの調査結果は、RLの社会的認知推論を強化する可能性を強調し、LLMSにおける構造化された問題解決と微妙な社会的推論の間のギャップを埋めることを強調しています。

要約(オリジナル)

Recent advancements in rule-based reinforcement learning (RL), applied during the post-training phase of large language models (LLMs), have significantly enhanced their capabilities in structured reasoning tasks such as mathematics and logical inference. However, the effectiveness of RL in social reasoning, particularly in Theory of Mind (ToM), the ability to infer others’ mental states, remains largely unexplored. In this study, we demonstrate that RL methods effectively unlock ToM reasoning capabilities even in small-scale LLMs (0.5B to 7B parameters). Using a modest dataset comprising 3200 questions across diverse scenarios, our RL-trained 7B model achieves 84.50\% accuracy on the Hi-ToM benchmark, surpassing models like GPT-4o and DeepSeek-v3 despite significantly fewer parameters. While smaller models ($\leq$3B parameters) suffer from reasoning collapse, larger models (7B parameters) maintain stable performance through consistent belief tracking. Additionally, our RL-based models demonstrate robust generalization to higher-order, out-of-distribution ToM problems, novel textual presentations, and previously unseen datasets. These findings highlight RL’s potential to enhance social cognitive reasoning, bridging the gap between structured problem-solving and nuanced social inference in LLMs.

arxiv情報

著者 Yi-Long Lu,Chunhui Zhang,Jiajun Song,Lifeng Fan,Wei Wang
発行日 2025-04-02 12:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク