Imagine the Unseen World: A Benchmark for Systematic Generalization in Visual World Models

要約

体系的な構成性、つまり再利用可能な知識の断片を使用して世界のメンタル モデルを作成することで新しい状況に適応する能力は、依然として機械学習における重要な課題です。
言語領域ではかなりの進歩が見られますが、体系的な視覚的想像力、つまり視覚的観察の動的な意味を想像する取り組みはまだ初期段階にあります。
この問題に正面から取り組むために設計された最初のベンチマークである Systematic Visual Imagination Benchmark (SVIB) を紹介します。
SVIB は、ミニマル ワールド モデリング問題に対する新しいフレームワークを提供します。このフレームワークでは、潜在ワールド ダイナミクスの下で 1 ステップのイメージ間変換を生成する能力に基づいてモデルが評価されます。
このフレームワークには、体系的な知覚と想像力、さまざまな難易度レベルを共同で最適化する可能性、トレーニング中に使用される可能な要素の組み合わせの一部を制御する機能などの利点があります。
私たちは SVIB 上のさまざまなベースライン モデルの包括的な評価を提供し、体系的な視覚的想像力における現在の最先端の洞察を提供します。
このベンチマークが視覚的な体系的な構成性の向上に役立つことを願っています。

要約(オリジナル)

Systematic compositionality, or the ability to adapt to novel situations by creating a mental model of the world using reusable pieces of knowledge, remains a significant challenge in machine learning. While there has been considerable progress in the language domain, efforts towards systematic visual imagination, or envisioning the dynamical implications of a visual observation, are in their infancy. We introduce the Systematic Visual Imagination Benchmark (SVIB), the first benchmark designed to address this problem head-on. SVIB offers a novel framework for a minimal world modeling problem, where models are evaluated based on their ability to generate one-step image-to-image transformations under a latent world dynamics. The framework provides benefits such as the possibility to jointly optimize for systematic perception and imagination, a range of difficulty levels, and the ability to control the fraction of possible factor combinations used during training. We provide a comprehensive evaluation of various baseline models on SVIB, offering insight into the current state-of-the-art in systematic visual imagination. We hope that this benchmark will help advance visual systematic compositionality.

arxiv情報

著者 Yeongbin Kim,Gautam Singh,Junyeong Park,Caglar Gulcehre,Sungjin Ahn
発行日 2023-11-15 16:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク