要約
スマートフォンのグラフィカル ユーザー インターフェイス (GUI) ナビゲーション タスク用の GPT-4V ベースのエージェントである MM-Navigator を紹介します。
MM-Navigator は、人間のユーザーとしてスマートフォンの画面を操作し、与えられた指示を満たすためのその後のアクションを決定できます。
私たちの調査結果は、大規模マルチモーダル モデル (LMM)、特に GPT-4V が、高度な画面解釈、アクション推論、および正確なアクション位置特定機能を通じて、ゼロショット GUI ナビゲーションに優れていることを示しています。
まず、収集した iOS 画面データセットで MM-Navigator のベンチマークを行います。
人間による評価によると、このシステムは、合理的なアクション記述の生成において 91\% の精度を示し、iOS 上でのシングルステップ命令に対する正しいアクションの実行において 75\% の精度を示しました。
さらに、Android 画面ナビゲーション データセットのサブセットでモデルを評価しました。このモデルは、ゼロショット方式で以前の GUI ナビゲーターを上回りました。
私たちのベンチマークと詳細な分析は、GUI ナビゲーション タスクに関する将来の研究のための強固な基礎を築くことを目的としています。
プロジェクト ページは https://github.com/zzxslp/MM-Navigator にあります。
要約(オリジナル)
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.
arxiv情報
著者 | An Yan,Zhengyuan Yang,Wanrong Zhu,Kevin Lin,Linjie Li,Jianfeng Wang,Jianwei Yang,Yiwu Zhong,Julian McAuley,Jianfeng Gao,Zicheng Liu,Lijuan Wang |
発行日 | 2023-11-13 18:53:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google