要約
大規模な言語モデル(LLMS)とマルチモーダルのカウンターパートの最近の進歩は、Web環境内でタスクを自律的にナビゲートおよび完成させることができるWebエージェントの開発に大きな関心を高めました。
複雑なWebインタラクションを自動化するための非常に大きな約束を保持している間、現在のアプローチは、人間が設計したインターフェイスとLLM機能の間の根本的な不一致により、大きな課題に直面しています。
現在の方法は、大規模なDOMツリーを処理したり、追加情報で拡張されたスクリーンショットに依存したり、APIインタラクションを通してユーザーインターフェイスをバイパスしたりするかどうかにかかわらず、Web入力の固有の複雑さと格闘しています。
このポジションペーパーは、Webエージェントの研究におけるパラダイムシフトを提唱しています。ウェブエージェントに人間向けに設計されたインターフェイスに適応することを強制するのではなく、エージェント機能専用に最適化された新しい相互作用パラダイムを開発する必要があります。
この目的のために、エージェントがウェブサイトをナビゲートするために特別に設計されたインターフェイスであるエージェントWebインターフェイス(AWI)の概念を紹介します。
すべての主要な利害関係者の利益を説明するために、安全性、効率、および標準化を強調し、AWI設計のための6つの指導原則を確立します。
この再構成の目的は、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性が高く、透明なWebエージェント設計への道を開くことを目的としています。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents — AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.
arxiv情報
著者 | Xing Han Lù,Gaurav Kamath,Marius Mosbach,Siva Reddy |
発行日 | 2025-06-12 17:53:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google