要約
マルチモーダル大規模言語モデル (MLLM) を利用したグラフィカル ユーザー インターフェイス (GUI) エージェントは、コンピューターや携帯電話などのコンピューティング デバイス上のタスク自動化に大きな可能性を示しています。
しかし、既存のエージェントは、多段階の推論とテキストの注釈への依存という課題に直面しており、その有効性が制限されています。
2 段階の監視付き微調整パイプラインでトレーニングされた MLLM ベースの GUI エージェントである \textit{InfiGUIAgent} を紹介します。
ステージ 1 では、GUI の理解や基礎付けなどの基本的なスキルを強化し、ステージ 2 では、合成データを使用して階層的推論と期待反映推論スキルを統合し、エージェントの本来の推論能力を可能にします。
\textit{InfiGUIAgent} は、いくつかの GUI ベンチマークで競争力のあるパフォーマンスを達成しており、自動化タスクの GUI インタラクションを強化するネイティブ推論スキルの影響を強調しています。
リソースは \url{https://github.com/Reallm-Labs/InfiGUIAgent} で入手できます。
要約(オリジナル)
Graphical User Interface (GUI) Agents, powered by multimodal large language models (MLLMs), have shown great potential for task automation on computing devices such as computers and mobile phones. However, existing agents face challenges in multi-step reasoning and reliance on textual annotations, limiting their effectiveness. We introduce \textit{InfiGUIAgent}, an MLLM-based GUI Agent trained with a two-stage supervised fine-tuning pipeline. Stage 1 enhances fundamental skills such as GUI understanding and grounding, while Stage 2 integrates hierarchical reasoning and expectation-reflection reasoning skills using synthesized data to enable native reasoning abilities of the agents. \textit{InfiGUIAgent} achieves competitive performance on several GUI benchmarks, highlighting the impact of native reasoning skills in enhancing GUI interaction for automation tasks. Resources are available at \url{https://github.com/Reallm-Labs/InfiGUIAgent}.
arxiv情報
著者 | Yuhang Liu,Pengxiang Li,Zishu Wei,Congkai Xie,Xueyu Hu,Xinchen Xu,Shengyu Zhang,Xiaotian Han,Hongxia Yang,Fei Wu |
発行日 | 2025-01-08 15:45:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google