Dynamic Planning for LLM-based Graphical User Interface Automation

要約

大規模言語モデル (LLM) の出現により、自律型 LLM ベースのエージェント、特にスマートフォンのグラフィカル ユーザー インターフェイス (GUI) 内の興味深いアプリケーションの進歩に対する多大な関心が高まっています。
タスクの目標が提示されると、これらのエージェントは通常、タスクが完了するまで GUI 環境内で人間のアクションをエミュレートします。
ただし、計画は複雑なタスクを一連のステップに分解するのに効果的であると広く認識されていますが、主な課題は、GUI タスクでのアクション予測をガイドする効果的な計画を考案することにあります。
具体的には、アクション実行後の環境 GUI の動的な性質を考慮すると、環境フィードバックとアクション履歴に基づいて計画を動的に適応させることが重要です。広く使用されている ReAct アプローチは、歴史的な対話が長すぎるために失敗することを示します。
この課題に対処するために、LLM ベースの GUI エージェント向けの動的計画 (D-PoT) と呼ばれる新しいアプローチを提案します。D-PoT には、環境フィードバックと実行履歴に基づく計画の動的調整が含まれます。
実験結果は、提案された D-PoT が精度において強力な GPT-4V ベースラインを +12.7% (34.66% $\rightarrow$ 47.36%) 大幅に上回ったことを明らかにしました。
この分析では、さまざまなバックボーン LLM における動的計画の汎用性だけでなく、幻覚の軽減や目に見えないタスクへの適応における利点も浮き彫りになっています。
コードは https://github.com/sqzhang-lazy/D-PoT で入手できます。

要約(オリジナル)

The advent of large language models (LLMs) has spurred considerable interest in advancing autonomous LLMs-based agents, particularly in intriguing applications within smartphone graphical user interfaces (GUIs). When presented with a task goal, these agents typically emulate human actions within a GUI environment until the task is completed. However, a key challenge lies in devising effective plans to guide action prediction in GUI tasks, though planning have been widely recognized as effective for decomposing complex tasks into a series of steps. Specifically, given the dynamic nature of environmental GUIs following action execution, it is crucial to dynamically adapt plans based on environmental feedback and action history.We show that the widely-used ReAct approach fails due to the excessively long historical dialogues. To address this challenge, we propose a novel approach called Dynamic Planning of Thoughts (D-PoT) for LLM-based GUI agents.D-PoT involves the dynamic adjustment of planning based on the environmental feedback and execution history. Experimental results reveal that the proposed D-PoT significantly surpassed the strong GPT-4V baseline by +12.7% (34.66% $\rightarrow$ 47.36%) in accuracy. The analysis highlights the generality of dynamic planning in different backbone LLMs, as well as the benefits in mitigating hallucinations and adapting to unseen tasks. Code is available at https://github.com/sqzhang-lazy/D-PoT.

arxiv情報

著者 Shaoqing Zhang,Zhuosheng Zhang,Kehai Chen,Xinbei Ma,Muyun Yang,Tiejun Zhao,Min Zhang
発行日 2024-12-19 14:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク