要約
教師なしオブジェクト中心の表現学習とマルチオブジェクトの検出とセグメンテーションのための新しいアーキテクチャを導入します。これは、シーンに存在するオブジェクトの座標を予測し、特徴ベクトルを各オブジェクトに関連付けるために、並進同変アテンション メカニズムを使用します。
変換エンコーダーがオクルージョンと冗長検出を処理し、畳み込みオートエンコーダーがバックグラウンドの再構成を担当します。
このアーキテクチャは、複雑な合成ベンチマークで最先端技術を大幅に上回ることを示しています。
要約(オリジナル)
We introduce a new architecture for unsupervised object-centric representation learning and multi-object detection and segmentation, which uses a translation-equivariant attention mechanism to predict the coordinates of the objects present in the scene and to associate a feature vector to each object. A transformer encoder handles occlusions and redundant detections, and a convolutional autoencoder is in charge of background reconstruction. We show that this architecture significantly outperforms the state of the art on complex synthetic benchmarks.
arxiv情報
著者 | Bruno Sauvalle,Arnaud de La Fortelle |
発行日 | 2022-08-31 13:34:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google