要約
スロット アテンションは、画像やビデオにおけるオブジェクト中心のモデリングのための強力な方法です。
ただし、セット等分散により、関係を解除できないため、動的な数のオブジェクトを含むビデオを処理する能力が制限されます。
この制限を克服するために、まずスロット アテンションと最適なトランスポートの間の接続を確立します。
この新しい観点に基づいて、我々は MESH (Minimize Entropy of Sinkhorn) を提案します。これは、非正規化最適トランスポートのタイブレーク特性と正規化最適トランスポートの速度を組み合わせたクロスアテンション モジュールです。
複数のオブジェクト中心の学習ベンチマークで MESH を使用してスロット アテンションを評価し、あらゆる設定でスロット アテンションに比べて大幅な改善が見られました。
要約(オリジナル)
Slot attention is a powerful method for object-centric modeling in images and videos. However, its set-equivariance limits its ability to handle videos with a dynamic number of objects because it cannot break ties. To overcome this limitation, we first establish a connection between slot attention and optimal transport. Based on this new perspective we propose MESH (Minimize Entropy of Sinkhorn): a cross-attention module that combines the tiebreaking properties of unregularized optimal transport with the speed of regularized optimal transport. We evaluate slot attention using MESH on multiple object-centric learning benchmarks and find significant improvements over slot attention in every setting.
arxiv情報
著者 | Yan Zhang,David W. Zhang,Simon Lacoste-Julien,Gertjan J. Burghouts,Cees G. M. Snoek |
発行日 | 2023-05-31 16:14:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google