Mean Shift Mask Transformer for Unseen Object Instance Segmentation

要約

画像から目に見えないオブジェクトをセグメント化することは、ロボットが習得する必要がある重要な認識スキルです。
ロボット操作では、ロボットが目に見えない物体を掴んで操作することが容易になります。
平均シフト クラスタリングは、画像セグメンテーション タスクに広く使用されている方法です。
ただし、従来の平均シフト クラスタリング アルゴリズムは微分可能ではないため、エンドツーエンドのニューラル ネットワーク トレーニング フレームワークに統合することが困難です。
この研究では、von Mises-Fisher (vMF) 平均シフト クラスタリング アルゴリズムをシミュレートする新しいトランスフォーマー アーキテクチャである Mean Shift Mask Transformer (MSMFormer) を提案します。これにより、特徴抽出器とクラスタリングの両方の共同トレーニングと推論が可能になります。
その中心的なコンポーネントは、ハイパースフィア上のオブジェクト クエリを更新するハイパースフィア アテンション メカニズムです。
私たちの方法の有効性を示すために、MSMFormer を目に見えないオブジェクト インスタンスのセグメンテーションに適用します。
私たちの実験では、MSMFormer が、目に見えないオブジェクト インスタンスのセグメンテーションに関する最先端の方法と比較して、競争力のあるパフォーマンスを実現していることが示されています。
プロジェクト ページ、付録、ビデオ、コードは https://irvlutd.github.io/MSMFormer で入手できます。

要約(オリジナル)

Segmenting unseen objects from images is a critical perception skill that a robot needs to acquire. In robot manipulation, it can facilitate a robot to grasp and manipulate unseen objects. Mean shift clustering is a widely used method for image segmentation tasks. However, the traditional mean shift clustering algorithm is not differentiable, making it difficult to integrate it into an end-to-end neural network training framework. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to unseen object instance segmentation. Our experiments show that MSMFormer achieves competitive performance compared to state-of-the-art methods for unseen object instance segmentation. The project page, appendix, video, and code are available at https://irvlutd.github.io/MSMFormer

arxiv情報

著者 Yangxiao Lu,Yuqiao Chen,Nicholas Ruozzi,Yu Xiang
発行日 2023-09-21 23:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク