The Impact of Element Ordering on LM Agent Performance

要約

Web やデスクトップなどの仮想環境をナビゲートできる言語モデル エージェントへの関心が高まっています。
このような環境をナビゲートするために、エージェントは存在するさまざまな要素 (ボタン、テキスト、画像など) に関する情報から恩恵を受けます。
特にグラフィック表現 (ピクセルなど) のみを提供する環境では、どの要素属性がエージェントのパフォーマンスに最も大きな影響を与えるかは不明のままです。
ここで、言語モデルに提示される要素の順序が驚くほど影響力があることがわかりました。Web ページ内で要素の順序をランダムにすると、エージェントの状態表現から表示されているテキストをすべて削除するのと同じくらい、エージェントのパフォーマンスが低下します。
Web ページでは要素の階層的な順序が提供されますが、ピクセルから要素を直接解析する場合にはそのような順序はありません。
さらに、タスクがより困難になり、モデルがより洗練されるにつれて、順序付けの影響が増大することが実験で示唆されています。
効果的な順序を見つけるのは簡単ではありません。
Web およびデスクトップ環境におけるさまざまな要素の順序付け方法の影響を調査します。
次元削減により、ピクセルのみの環境に実行可能な順序付けが提供されることがわかりました。
UI 要素検出モデルをトレーニングしてピクセルから要素を導出し、その結果をエージェント ベンチマーク (OmniACT) に適用します。このベンチマークでは、ピクセルのみにアクセスできます。
私たちの方法は、以前の最先端技術と比較して、平均して 2 倍以上のタスクを完了します。

要約(オリジナル)

There has been a surge of interest in language model agents that can navigate virtual environments such as the web or desktop. To navigate such environments, agents benefit from information on the various elements (e.g., buttons, text, or images) present. It remains unclear which element attributes have the greatest impact on agent performance, especially in environments that only provide a graphical representation (i.e., pixels). Here we find that the ordering in which elements are presented to the language model is surprisingly impactful–randomizing element ordering in a webpage degrades agent performance comparably to removing all visible text from an agent’s state representation. While a webpage provides a hierarchical ordering of elements, there is no such ordering when parsing elements directly from pixels. Moreover, as tasks become more challenging and models more sophisticated, our experiments suggest that the impact of ordering increases. Finding an effective ordering is non-trivial. We investigate the impact of various element ordering methods in web and desktop environments. We find that dimensionality reduction provides a viable ordering for pixel-only environments. We train a UI element detection model to derive elements from pixels and apply our findings to an agent benchmark–OmniACT–where we only have access to pixels. Our method completes more than two times as many tasks on average relative to the previous state-of-the-art.

arxiv情報

著者 Wayne Chi,Ameet Talwalkar,Chris Donahue
発行日 2024-09-18 16:04:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク