要約
Multimodal Large Languals Models(MLLMS)により、GUIエージェントは言語を空間アクションに接地することにより、オペレーティングシステムと対話することができました。
有望なパフォーマンスにもかかわらず、これらのモデルは、信頼性を損なう幻覚体系的な局在エラーを頻繁に示します。
モデルの予測を4つの異なるタイプに分類する微調整された評価フレームワークを提案し、従来の精度メトリックを超えた微妙な故障モードを明らかにします。
モデルの不確実性をより適切に定量化するために、座標予測のセマンティック連続性とロジット分布のアラインメントを評価するメトリックであるピークシャープネススコア(PSS)を導入します。
この洞察に基づいて、入力コンテキストを適応的に改良することでモデルのパフォーマンスを向上させるトレーニングフリーのテクニックであるコンテキスト認識の作物をさらに提案します。
広範な実験は、私たちのフレームワークと方法が実用的な洞察を提供し、GUIエージェントの行動の解釈性と堅牢性を高めることを示しています。
要約(オリジナル)
Multimodal large language models (MLLMs) have enabled GUI agents to interact with operating systems by grounding language into spatial actions. Despite their promising performance, these models frequently exhibit hallucinations-systematic localization errors that compromise reliability. We propose a fine-grained evaluation framework that categorizes model predictions into four distinct types, revealing nuanced failure modes beyond traditional accuracy metrics. To better quantify model uncertainty, we introduce the Peak Sharpness Score (PSS), a metric that evaluates the alignment between semantic continuity and logits distribution in coordinate prediction. Building on this insight, we further propose Context-Aware Cropping, a training-free technique that improves model performance by adaptively refining input context. Extensive experiments demonstrate that our framework and methods provide actionable insights and enhance the interpretability and robustness of GUI agent behavior.
arxiv情報
著者 | Xingjian Tao,Yiwei Wang,Yujun Cai,Zhicheng Yang,Jing Tang |
発行日 | 2025-06-18 12:55:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google