ViSTa Dataset: Do vision-language models understand sequential tasks?

要約

強化学習の報酬モデルとしてビジョン言語モデル (VLM) を使用すると、コストの削減と安全性の向上が期待できます。
これまでのところ、VLM 報酬モデルは、エージェントが特定の最終結果に到達する必要がある、目標指向のタスクにのみ使用されてきました。
最終状態だけではスコアリングできないタスクを監視する VLM の可能性を探ります。
この目的を達成するために、シーケンシャル タスクのビジョンベースの理解を評価するためのデータセットである ViSTa を紹介します。
ViSTa は、仮想ホーム、Minecraft、現実世界の環境における段階的な説明を含む 4,000 以上のビデオで構成されています。
その新しい階層構造 (基本的な単一ステップのタスクが、ますます複雑な連続タスクに構成されている) により、VLM がさまざまな複雑さのタスクをどの程度適切に判断できるかを詳細に理解できるようになります。
これを説明するために、ViSTa を使用して、CLIP、ViCLIP、GPT-4o などの最先端の VLM を評価します。
これらはすべてオブジェクト認識には優れていますが、逐次的なタスクを理解することができず、GPT-4o だけが重要なパフォーマンスを達成していることがわかりました。

要約(オリジナル)

Using vision-language models (VLMs) as reward models in reinforcement learning holds promise for reducing costs and improving safety. So far, VLM reward models have only been used for goal-oriented tasks, where the agent must reach a particular final outcome. We explore VLMs’ potential to supervise tasks that cannot be scored by the final state alone. To this end, we introduce ViSTa, a dataset for evaluating Vision-based understanding of Sequential Tasks. ViSTa comprises over 4,000 videos with step-by-step descriptions in virtual home, Minecraft, and real-world environments. Its novel hierarchical structure — basic single-step tasks composed into more and more complex sequential tasks — allows a fine-grained understanding of how well VLMs can judge tasks with varying complexity. To illustrate this, we use ViSTa to evaluate state-of-the-art VLMs, including CLIP, ViCLIP, and GPT-4o. We find that, while they are all good at object recognition, they fail to understand sequential tasks, with only GPT-4o achieving non-trivial performance.

arxiv情報

著者 Evžen Wybitul,Evan Ryan Gunter,Mikhail Seleznyov,David Lindner
発行日 2024-11-21 16:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク