AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents

要約

Multimodal Large Language Models(MLLMS)により、LLMベースのエージェントがアプリケーションユーザーインターフェイス(UIS)と直接対話できるようになり、複雑なタスクでのエージェントのパフォーマンスが向上しました。
ただし、これらのエージェントは、広範な順次UI相互作用のために、高いレイテンシと低い信頼性に苦しむことがよくあります。
この問題に対処するために、UIアクションを介したアプリケーションプログラミングインターフェイス(API)を介してアクションを優先する新しいLLMベースのエージェントフレームワークであるAxisを提案します。
このフレームワークは、アプリケーションの自動調査を通じてAPIの作成と拡張も促進します。
Microsoft Wordの実験は、軸がタスクの完了時間を65%-70%減少させ、認知ワークロードを38%〜53%減らすことを示していますが、人間と比較して97%-98%の精度を維持しています。
私たちの作業は、新しい人間エージェントコンピューターの相互作用(HACI)フレームワークに貢献し、アプリケーションプロバイダーがLLMSの時代にアプリケーションをエージェントに変えるための新鮮なUI設計原則を調査し、エージェント中心のオペレーティングシステム(エージェントOS)に向かう道を開いています。

要約(オリジナル)

Multimodal large language models (MLLMs) have enabled LLM-based agents to directly interact with application user interfaces (UIs), enhancing agents’ performance in complex tasks. However, these agents often suffer from high latency and low reliability due to the extensive sequential UI interactions. To address this issue, we propose AXIS, a novel LLM-based agents framework that prioritize actions through application programming interfaces (APIs) over UI actions. This framework also facilitates the creation and expansion of APIs through automated exploration of applications. Our experiments on Microsoft Word demonstrate that AXIS reduces task completion time by 65%-70% and cognitive workload by 38%-53%, while maintaining accuracy of 97%-98% compared to humans. Our work contributes to a new human-agent-computer interaction (HACI) framework and explores a fresh UI design principle for application providers to turn applications into agents in the era of LLMs, paving the way towards an agent-centric operating system (Agent OS).

arxiv情報

著者 Junting Lu,Zhiyang Zhang,Fangkai Yang,Jue Zhang,Lu Wang,Chao Du,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2025-05-19 16:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク