Mean Shift Mask Transformer for Unseen Object Instance Segmentation


平均シフト クラスタリングは、オブジェクト セグメンテーション タスクの一般的な方法です。
ただし、従来の平均シフト クラスタリング アルゴリズムは、エンドツーエンドのニューラル ネットワーク トレーニング パイプラインに簡単に統合できません。
この作業では、フォン ミーゼス-フィッシャー (vMF) 平均シフト クラスタリング アルゴリズムをシミュレートする新しいトランス アーキテクチャである Mean Shift Mask Transformer (MSMFormer) を提案し、特徴抽出器とクラスタリングの両方の共同トレーニングと推論を可能にします。
その中心的なコンポーネントは、ハイパースフィア上のオブジェクト クエリを更新するハイパースフィア アテンション メカニズムです。
この方法の有効性を説明するために、MSMFormer を目に見えないオブジェクト インスタンス セグメンテーションに適用します。これにより、現実世界のオブジェクト クラッター インドア データセット (OCID) で 87.3 境界 F 平均の新しい最先端が得られます。
コードは で入手できます


Segmenting unseen objects is a critical task in many different domains. For example, a robot may need to grasp an unseen object, which means it needs to visually separate this object from the background and/or other objects. Mean shift clustering is a common method in object segmentation tasks. However, the traditional mean shift clustering algorithm is not easily integrated into an end-to-end neural network training pipeline. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to Unseen Object Instance Segmentation, which yields a new state-of-the-art of 87.3 Boundary F-meansure on the real-world Object Clutter Indoor Dataset (OCID). Code is available at


著者 Yangxiao Lu,Yuqiao Chen,Nicholas Ruozzi,Yu Xiang
発行日 2022-11-21 17:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク