要約
スロット アテンションは、画像やビデオでオブジェクト中心のモデリングを行うための強力な方法です。
ただし、セットの等価性により、動的な数のオブジェクトを含むビデオを処理する能力が制限されます。
この制限を克服するために、まずスロットの注意と最適なトランスポートの間の接続を確立します。
この新しい視点に基づいて、MESH (Minimize Entropy of Sinkhorn) を提案します。これは、正則化されていない最適なトランスポートのタイブレーク特性と、正則化された最適なトランスポートの速度を組み合わせたクロスアテンション モジュールです。
複数のオブジェクト中心の学習ベンチマークで MESH を使用してスロットの注意を評価し、すべての設定でスロットの注意に大幅な改善が見られます。
要約(オリジナル)
Slot attention is a powerful method for object-centric modeling in images and videos. However, its set-equivariance limits its ability to handle videos with a dynamic number of objects because it cannot break ties. To overcome this limitation, we first establish a connection between slot attention and optimal transport. Based on this new perspective we propose MESH (Minimize Entropy of Sinkhorn): a cross-attention module that combines the tiebreaking properties of unregularized optimal transport with the speed of regularized optimal transport. We evaluate slot attention using MESH on multiple object-centric learning benchmarks and find significant improvements over slot attention in every setting.
arxiv情報
著者 | Yan Zhang,David W. Zhang,Simon Lacoste-Julien,Gertjan J. Burghouts,Cees G. M. Snoek |
発行日 | 2023-01-30 18:59:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google