Understanding the Weakness of Large Language Model Agents within a Complex Android Environment

要約

大規模言語モデル (LLM) により、インテリジェント エージェントはブラウザやゲームなどのドメイン固有のソフトウェア内で複雑なタスクを実行できるようになりました。
ただし、オペレーティング システムなどの汎用ソフトウェア システムに適用すると、LLM エージェントは 3 つの主要な課題に直面します。
まず、アクション スペースは広大かつ動的であるため、LLM エージェントが最新の理解を維持し、正確な応答を提供することが困難になります。
第 2 に、現実世界のタスクではアプリケーション間の連携が必要になることが多く、LLM エージェントには先見の明のある計画が求められます。
第三に、エージェントは、セキュリティ上の懸念や好みなどのユーザーの制約に合わせた最適なソリューションを特定する必要があります。
これらの課題は、最新のオペレーティング システム上で LLM エージェントを評価するために設計された環境およびベンチマークである AndroidArena の原動力となります。
人件費の高騰に対処するために、ベンチマークを構築するためのスケーラブルで半自動化された方法を設計します。
タスクの評価では、AndroidArena は正確で適応的なメトリクスを組み込んで、非固有のソリューションの問題に対処します。
私たちの調査結果では、最先端の LLM エージェントでも、APP 間のシナリオや特定の制約の遵守には苦労していることが明らかになりました。
さらに、LLM エージェントが失敗する主な理由として、理解、推論、探索、熟考という 4 つの主要な機能が欠如していることがわかりました。
さらに、リフレクションの失敗に関する実証分析を提供し、提案した探索戦略により成功率が 27% 向上しました。
この研究は、LLM エージェントの詳細な弱点を理解する上で貴重な洞察を初めて提示したものであり、この分野における将来の研究に進む道を提供します。
AndroidArena の環境、ベンチマーク、評価コードは https://github.com/AndroidArenaAgent/AndroidArena で公開されています。

要約(オリジナル)

Large language models (LLMs) have empowered intelligent agents to execute intricate tasks within domain-specific software such as browsers and games. However, when applied to general-purpose software systems like operating systems, LLM agents face three primary challenges. Firstly, the action space is vast and dynamic, posing difficulties for LLM agents to maintain an up-to-date understanding and deliver accurate responses. Secondly, real-world tasks often require inter-application cooperation}, demanding farsighted planning from LLM agents. Thirdly, agents need to identify optimal solutions aligning with user constraints, such as security concerns and preferences. These challenges motivate AndroidArena, an environment and benchmark designed to evaluate LLM agents on a modern operating system. To address high-cost of manpower, we design a scalable and semi-automated method to construct the benchmark. In the task evaluation, AndroidArena incorporates accurate and adaptive metrics to address the issue of non-unique solutions. Our findings reveal that even state-of-the-art LLM agents struggle in cross-APP scenarios and adhering to specific constraints. Additionally, we identify a lack of four key capabilities, i.e., understanding, reasoning, exploration, and reflection, as primary reasons for the failure of LLM agents. Furthermore, we provide empirical analysis on the failure of reflection, and improve the success rate by 27% with our proposed exploration strategy. This work is the first to present valuable insights in understanding fine-grained weakness of LLM agents, and offers a path forward for future research in this area. Environment, benchmark, and evaluation code for AndroidArena are released at https://github.com/AndroidArenaAgent/AndroidArena.

arxiv情報

著者 Mingzhe Xing,Rongkai Zhang,Hui Xue,Qi Chen,Fan Yang,Zhen Xiao
発行日 2024-02-09 18:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SE パーマリンク