要約
目に見えないオブジェクトのセグメント化は、さまざまな分野で重要なタスクです。
たとえば、ロボットは目に見えないオブジェクトをつかむ必要がある場合があります。つまり、このオブジェクトを背景や他のオブジェクトから視覚的に分離する必要があります。
平均シフト クラスタリングは、オブジェクト セグメンテーション タスクの一般的な方法です。
ただし、従来の平均シフト クラスタリング アルゴリズムは、エンドツーエンドのニューラル ネットワーク トレーニング パイプラインに簡単に統合できません。
この作業では、フォン ミーゼス-フィッシャー (vMF) 平均シフト クラスタリング アルゴリズムをシミュレートする新しいトランス アーキテクチャである Mean Shift Mask Transformer (MSMFormer) を提案し、特徴抽出器とクラスタリングの両方の共同トレーニングと推論を可能にします。
その中心的なコンポーネントは、ハイパースフィア上のオブジェクト クエリを更新するハイパースフィア アテンション メカニズムです。
この方法の有効性を説明するために、MSMFormer を目に見えないオブジェクト インスタンス セグメンテーションに適用します。これにより、現実世界のオブジェクト クラッター インドア データセット (OCID) で 87.3 境界 F 平均の新しい最先端が得られます。
コードは https://github.com/YoungSean/UnseenObjectsWithMeanShift で入手できます
要約(オリジナル)
Segmenting unseen objects is a critical task in many different domains. For example, a robot may need to grasp an unseen object, which means it needs to visually separate this object from the background and/or other objects. Mean shift clustering is a common method in object segmentation tasks. However, the traditional mean shift clustering algorithm is not easily integrated into an end-to-end neural network training pipeline. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to Unseen Object Instance Segmentation, which yields a new state-of-the-art of 87.3 Boundary F-meansure on the real-world Object Clutter Indoor Dataset (OCID). Code is available at https://github.com/YoungSean/UnseenObjectsWithMeanShift
arxiv情報
著者 | Yangxiao Lu,Yuqiao Chen,Nicholas Ruozzi,Yu Xiang |
発行日 | 2022-11-21 17:47:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google