Identifying User Goals from UI Trajectories

要約

グラフィカル ユーザー インターフェイス (GUI) と対話する自律エージェントは、ユーザー エクスペリエンスを向上させる大きな可能性を秘めています。
これらのエクスペリエンスをさらに向上させるには、エージェントがパーソナライズされ、積極的に対応する必要があります。
ユーザーのアクションや GUI との対話を通じてユーザーの意図を効果的に理解することで、エージェントはこれらの目標を達成しやすくなります。
この論文では、GUI 操作に基づいてユーザーの意図したタスクを推測することを目的として、観察された UI の軌跡から目標を特定するタスクを紹介します。
我々は、2 つのタスクの説明が特定の UI 環境内で言い換えであるかどうかを評価するための新しい評価指標を提案します。
UI 自動化タスクとの逆関係を利用することで、Android-In-The-Wild および Mind2Web データセットを実験に利用しました。
私たちのメトリクスとこれらのデータセットを使用して、人間と最先端のモデル、特に GPT-4 と Gemini-1.5 Pro のパフォーマンスを比較するいくつかの実験を実施しました。
私たちの結果は、Gemini のパフォーマンスは GPT よりも優れているものの、人間と比べると依然としてパフォーマンスが劣っており、改善の余地が大きいことを示しています。

要約(オリジナル)

Autonomous agents that interact with graphical user interfaces (GUIs) hold significant potential for enhancing user experiences. To further improve these experiences, agents need to be personalized and proactive. By effectively comprehending user intentions through their actions and interactions with GUIs, agents will be better positioned to achieve these goals. This paper introduces the task of goal identification from observed UI trajectories, aiming to infer the user’s intended task based on their GUI interactions. We propose a novel evaluation metric to assess whether two task descriptions are paraphrases within a specific UI environment. By Leveraging the inverse relation with the UI automation task, we utilized the Android-In-The-Wild and Mind2Web datasets for our experiments. Using our metric and these datasets, we conducted several experiments comparing the performance of humans and state-of-the-art models, specifically GPT-4 and Gemini-1.5 Pro. Our results show that Gemini performs better than GPT but still underperforms compared to humans, indicating significant room for improvement.

arxiv情報

著者 Omri Berkovitch,Sapir Caduri,Noam Kahlon,Anatoly Efros,Avi Caciularu,Ido Dagan
発行日 2024-06-20 13:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク