Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

要約

テスト時間スケーリングの現在のパラダイムは、応答を生成する前に、長い推論トレース(「考えている」)を生成することに依存しています。
相互作用を必要とするエージェントの問題では、これは世界で行動する前に思考の痕跡を生成することによって行うことができます。
ただし、このプロセスでは、エージェントが環境から新しい情報を取得したり、時間の経過とともに行動を適応させることはできません。
この作業では、テスト時間の相互作用をスケーリングすることを提案します。これは、テスト時間スケーリングの未開発の次元であり、エージェントの相互作用ホライズンを増加させて、1回のロールアウト内での探索、バックトラッキング、動的な再プランニングなどのリッチな行動を実行できるようにします。
このスケーリングディメンションの約束を示すために、Webエージェントの領域を研究します。
最初に、トレーニングなしでプロンプトベースのインタラクションスケーリングでさえ、Webベンチマークでのタスクの成功を不可欠で改善できることを示しています。
これに基づいて、カリキュラムベースのオンライン強化学習(RL)アプローチであるTTI(テスト時間インタラクション)を紹介します。
Gemma 3 12Bモデルを使用して、TTIは、WebVoyagerおよびWebArenaベンチマークで最先端のオープンソース、オープンデータWebエージェントを生成します。
さらに、TTIがエージェントが探索と搾取の適応的にバランスをとることができることを示します。
私たちの結果は、ステップあたりのコンピューティングスケーリングへの強力で相補的な軸としての相互作用スケーリングを確立し、適応エージェントをトレーニングするための新しい手段を提供します。

要約(オリジナル)

The current paradigm of test-time scaling relies on generating long reasoning traces (‘thinking’ more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent’s interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.

arxiv情報

著者 Junhong Shen,Hao Bai,Lunjun Zhang,Yifei Zhou,Amrith Setlur,Shengbang Tong,Diego Caples,Nan Jiang,Tong Zhang,Ameet Talwalkar,Aviral Kumar
発行日 2025-06-10 12:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク