要約
GUI エージェントを構築する既存の取り組みは、GPT-4o や GeminiProVision などの堅牢な商用ビジョン言語モデル (VLM) の利用に大きく依存しています。
オープンソース VLM は、特に GUI グラウンディングや配布外 (OOD) シナリオにおいて、クローズド ソースの VLM と比べてパフォーマンスに大きな遅れがあるため、実務者は使用に消極的になることがよくあります。
この分野での将来の研究を促進するために、私たちは OS-Atlas を開発しました。OS-Atlas は、データとモデリングの両方の革新を通じて GUI の基礎と OOD エージェント タスクに優れた基本的な GUI アクション モデルです。
私たちは、Windows、Linux、MacOS、Android、Web などの複数のプラットフォームにわたって GUI 基礎データを合成するためのオープンソース ツールキットの開発に多大なエンジニアリング努力を投資してきました。
このツールキットを活用して、1,300 万を超える GUI 要素を含む、これまでで最大のオープンソース クロスプラットフォーム GUI グラウンディング コーパスをリリースします。
このデータセットは、モデル トレーニングの革新と組み合わせることで、OS-Atlas が GUI スクリーンショットを理解し、目に見えないインターフェイスに一般化するための強固な基盤を提供します。
3 つの異なるプラットフォーム (モバイル、デスクトップ、Web) にわたる 6 つのベンチマークにわたる広範な評価を通じて、OS-Atlas は以前の最先端モデルと比較して大幅なパフォーマンスの向上を実証しました。
私たちの評価では、オープンソース VLM のエージェント機能の継続的な改善と拡張に関する貴重な洞察も明らかになりました。
要約(オリジナル)
Existing efforts in building GUI agents heavily rely on the availability of robust commercial Vision-Language Models (VLMs) such as GPT-4o and GeminiProVision. Practitioners are often reluctant to use open-source VLMs due to their significant performance lag compared to their closed-source counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD) scenarios. To facilitate future research in this area, we developed OS-Atlas – a foundational GUI action model that excels at GUI grounding and OOD agentic tasks through innovations in both data and modeling. We have invested significant engineering effort in developing an open-source toolkit for synthesizing GUI grounding data across multiple platforms, including Windows, Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing the largest open-source cross-platform GUI grounding corpus to date, which contains over 13 million GUI elements. This dataset, combined with innovations in model training, provides a solid foundation for OS-Atlas to understand GUI screenshots and generalize to unseen interfaces. Through extensive evaluation across six benchmarks spanning three different platforms (mobile, desktop, and web), OS-Atlas demonstrates significant performance improvements over previous state-of-the-art models. Our evaluation also uncovers valuable insights into continuously improving and scaling the agentic capabilities of open-source VLMs.
arxiv情報
著者 | Zhiyong Wu,Zhenyu Wu,Fangzhi Xu,Yian Wang,Qiushi Sun,Chengyou Jia,Kanzhi Cheng,Zichen Ding,Liheng Chen,Paul Pu Liang,Yu Qiao |
発行日 | 2024-10-30 17:10:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google