要約
長老のWebベースのタスクで成功した支援を達成するには、AIエージェントは、長期間にわたって実際のユーザーの指示に順次順番に従うことができなければなりません。
既存のWebベースのエージェントベンチマークとは異なり、現実世界でフォローするシーケンシャル命令は、明確に定義された単一のタスクを実行する以外に大きな課題をもたらします。
たとえば、実際の人間の指示はあいまいであり、異なるレベルのAI支援を必要とする可能性があり、ユーザーの精神状態の変化を反映して、時間とともに進化する可能性があります。
このギャップに対処するために、RealWebassistを紹介します。これは、Webとの長老の相互作用、視覚的なGUIの接地、および曖昧な実際のユーザーの指示を理解することを含む現実的なシナリオでの連続的な指導フォローを評価するために設計された新しいベンチマークです。
RealWebassistには、現実世界の人間ユーザーから収集された順次命令のデータセットが含まれています。
各ユーザーは、複数のWebサイトで一連のタスクを実行するようにWebベースのアシスタントに指示します。
成功したエージェントは、各命令の真の意図について推論し、ユーザーの精神状態を追跡し、ユーザー固有のルーチンを理解し、意図したタスクを正しいGUI要素のアクションに接地しなければなりません。
私たちの実験結果は、最先端のモデルがユーザーの指示を理解し、接地するのに苦労しており、長老のWeb支援の実際のユーザーの指示に従うことに重大な課題を提起していることを示しています。
要約(オリジナル)
To achieve successful assistance with long-horizon web-based tasks, AI agents must be able to sequentially follow real-world user instructions over a long period. Unlike existing web-based agent benchmarks, sequential instruction following in the real world poses significant challenges beyond performing a single, clearly defined task. For instance, real-world human instructions can be ambiguous, require different levels of AI assistance, and may evolve over time, reflecting changes in the user’s mental state. To address this gap, we introduce RealWebAssist, a novel benchmark designed to evaluate sequential instruction-following in realistic scenarios involving long-horizon interactions with the web, visual GUI grounding, and understanding ambiguous real-world user instructions. RealWebAssist includes a dataset of sequential instructions collected from real-world human users. Each user instructs a web-based assistant to perform a series of tasks on multiple websites. A successful agent must reason about the true intent behind each instruction, keep track of the mental state of the user, understand user-specific routines, and ground the intended tasks to actions on the correct GUI elements. Our experimental results show that state-of-the-art models struggle to understand and ground user instructions, posing critical challenges in following real-world user instructions for long-horizon web assistance.
arxiv情報
著者 | Suyu Ye,Haojun Shi,Darren Shih,Hyokun Yun,Tanya Roosta,Tianmin Shu |
発行日 | 2025-04-14 17:36:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google