要約
このペーパーでは、Visual Jengaと呼ばれる新しいシーンを理解するタスクを提案しています。
ゲームジェンガからインスピレーションを得て、提案されたタスクは、背景のみが残るまで、単一の画像からオブジェクトを徐々に削除することを伴います。
ジェンガのプレイヤーがタワーの安定性を維持するために構造的依存関係を理解しなければならないように、私たちのタスクは、物理的な意味と幾何学的な意味でシーンの一貫性を維持しながら、どのオブジェクトを削除できるかを体系的に調査することにより、シーン要素間の本質的な関係を明らかにします。
Visual Jengaタスクに取り組むための出発点として、さまざまな現実世界の画像で驚くほど効果的な、シンプルでデータ駆動型のトレーニングなしのアプローチを提案します。
私たちのアプローチの背後にある原則は、シーン内のオブジェクト間のペアワイズ関係の非対称性を利用し、大規模な入力モデルを採用して、一連の反事実を生成して非対称性を定量化することです。
要約(オリジナル)
This paper proposes a novel scene understanding task called Visual Jenga. Drawing inspiration from the game Jenga, the proposed task involves progressively removing objects from a single image until only the background remains. Just as Jenga players must understand structural dependencies to maintain tower stability, our task reveals the intrinsic relationships between scene elements by systematically exploring which objects can be removed while preserving scene coherence in both physical and geometric sense. As a starting point for tackling the Visual Jenga task, we propose a simple, data-driven, training-free approach that is surprisingly effective on a range of real-world images. The principle behind our approach is to utilize the asymmetry in the pairwise relationships between objects within a scene and employ a large inpainting model to generate a set of counterfactuals to quantify the asymmetry.
arxiv情報
著者 | Anand Bhattad,Konpat Preechakul,Alexei A. Efros |
発行日 | 2025-03-27 17:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google