OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

要約

何十年もの間、人間とコンピューターのやり取りは基本的に手動で行われてきました。
現在でも、コンピューター上で行われるほぼすべての生産的な作業には、あらゆる段階で人間の入力が必要です。
自律型仮想エージェントは、これらの単純なタスクの多くを自動化するための素晴らしいステップです。
仮想エージェントは、技術的熟練度が限られたユーザーでもコンピュータ システムの可能性を最大限に活用できるようにします。
また、人間の介入を最小限に抑えながら、カレンダー管理から複雑な旅行予約に至るまで、数多くのコンピューター タスクを効率的に合理化することも可能になります。
このペーパーでは、コンピュータ タスクを達成するための実行可能プログラムを生成するエージェントの能力を評価するための、これまでに類のないデータセットおよびベンチマークである OmniACT を紹介します。
当社の範囲は従来の Web オートメーションを超え、さまざまなデスクトップ アプリケーションをカバーします。
データセットは、「次の曲を再生する」などの基本的なタスクと、「ジョン ドゥに集合時間と場所を記載した電子メールを送信する」などの長期的なタスクで構成されています。
具体的には、画面イメージと視覚に基づいた自然言語タスクのペアが与えられた場合、目標は、タスクを完全に実行できるスクリプトを生成することです。
私たちはベンチマークでいくつかの強力なベースライン言語モデル エージェントを実行します。
最も強力なベースラインである GPT-4 は、当社のベンチマークで最高のパフォーマンスを示しています。ただし、そのパフォーマンス レベルは、タスクを完了できる実行可能スクリプトを生成する人間の熟練度の 15% にまだ達しておらず、従来の Web エージェントにとってのタスクの課題を示しています。
私たちのベンチマークは、コンピュータ タスクの自動化における言語モデル エージェントの進捗を測定および評価するためのプラットフォームを提供し、大規模な言語モデルとコンピュータ画面の視覚的基礎を橋渡しするマルチモーダル モデルの構築に向けた将来の作業の動機付けとなります。

要約(オリジナル)

For decades, human-computer interaction has fundamentally been manual. Even today, almost all productive work done on the computer necessitates human input at every step. Autonomous virtual agents represent an exciting step in automating many of these menial tasks. Virtual agents would empower users with limited technical proficiency to harness the full possibilities of computer systems. They could also enable the efficient streamlining of numerous computer tasks, ranging from calendar management to complex travel bookings, with minimal human intervention. In this paper, we introduce OmniACT, the first-of-a-kind dataset and benchmark for assessing an agent’s capability to generate executable programs to accomplish computer tasks. Our scope extends beyond traditional web automation, covering a diverse range of desktop applications. The dataset consists of fundamental tasks such as ‘Play the next song’, as well as longer horizon tasks such as ‘Send an email to John Doe mentioning the time and place to meet’. Specifically, given a pair of screen image and a visually-grounded natural language task, the goal is to generate a script capable of fully executing the task. We run several strong baseline language model agents on our benchmark. The strongest baseline, GPT-4, performs the best on our benchmark However, its performance level still reaches only 15% of the human proficiency in generating executable scripts capable of completing the task, demonstrating the challenge of our task for conventional web agents. Our benchmark provides a platform to measure and evaluate the progress of language model agents in automating computer tasks and motivates future work towards building multimodal models that bridge large language models and the visual grounding of computer screens.

arxiv情報

著者 Raghav Kapoor,Yash Parag Butala,Melisa Russak,Jing Yu Koh,Kiran Kamble,Waseem Alshikh,Ruslan Salakhutdinov
発行日 2024-02-28 17:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC パーマリンク