要約
今日のAIエージェントはほとんどが沈黙しています – 彼らはオンラインで取得した膨大な量のデジタル情報と知識を取得し、推論しています。
または、具体化された認識、計画、行動を通じて物理的な世界と対話しますが、両方ともめったにありません。
この分離は、オンラインレシピからの調理、動的マップデータでのナビゲート、Web知識を使用した実際のランドマークの解釈など、統合された物理的およびデジタルインテリジェンスを必要とするタスクを解決する能力を制限します。
具体化されたWebエージェントを紹介します。これは、AIエージェント向けの新しいパラダイムであり、具体化とWebスケールの推論を流動的に橋渡しします。
この概念を操作するために、まず、具体化されたWebエージェントタスク環境を開発します。これは、現実的な3D屋内および屋外環境を機能的なWebインターフェイスと密接に統合する統合されたシミュレーションプラットフォームです。
このプラットフォームに基づいて、調理、ナビゲーション、ショッピング、観光、地理配分などの多様なタスクを含む、具体化されたWebエージェントベンチマークを構築およびリリースします。
実験結果は、最先端のAIシステムと人間の能力の間の重要なパフォーマンスギャップを明らかにし、具体化された認知とWebスケールの知識アクセスの交差点での課題と機会の両方を確立します。
すべてのデータセット、コード、ウェブサイトは、プロジェクトページhttps://embodied-web-agent.github.io/で公開されています。
要約(オリジナル)
AI agents today are mostly siloed – they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action – but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation – all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.
arxiv情報
著者 | Yining Hong,Rui Sun,Bingxuan Li,Xingcheng Yao,Maxine Wu,Alexander Chien,Da Yin,Ying Nian Wu,Zhecan James Wang,Kai-Wei Chang |
発行日 | 2025-06-18 17:58:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google