Learning Explicit Object-Centric Representations with Vision Transformers

要約

トランスフォーマーのビジョン ドメインへの適応が最近成功したことで、特に自己監視型の方法でトレーニングされた場合、ビジョン トランスフォーマーは印象的なオブジェクト推論のような動作と、画像内のオブジェクト セグメンテーションのタスクを表現する機能を学習できることが示されました。
この論文では、マスクされたオートエンコーディングの自己監視タスクに基づいて構築し、トランスフォーマーを使用してオブジェクト中心の表現を明示的に学習するためのその有効性を探ります。
この目的のために、トランスフォーマーのみを使用してオブジェクト中心のオートエンコーダーを設計し、それをエンドツーエンドでトレーニングして、マスクされていないパッチから完全な画像を再構築します。
いくつかのマルチオブジェクト ベンチマークのセグメンテーション メトリックによって測定されるように、モデルが単純なシーンを分解することを効率的に学習することを示します。

要約(オリジナル)

With the recent successful adaptation of transformers to the vision domain, particularly when trained in a self-supervised fashion, it has been shown that vision transformers can learn impressive object-reasoning-like behaviour and features expressive for the task of object segmentation in images. In this paper, we build on the self-supervision task of masked autoencoding and explore its effectiveness for explicitly learning object-centric representations with transformers. To this end, we design an object-centric autoencoder using transformers only and train it end-to-end to reconstruct full images from unmasked patches. We show that the model efficiently learns to decompose simple scenes as measured by segmentation metrics on several multi-object benchmarks.

arxiv情報

著者 Oscar Vikström,Alexander Ilin
発行日 2022-10-25 16:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク