Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency

要約

ビデオ インスタンス セグメンテーション (VIS) 手法のパフォーマンスは、トランスフォーマー ネットワークの出現により大幅に向上しました。
ただし、これらのネットワークは、アノテーションのコストが高いため、トレーニング中に課題に直面することがよくあります。
これに対処するために、アノテーションへの依存を減らすために、教師なしメソッドと弱い教師ありメソッドが開発されました。
この研究では、マスク アノテーションを必要とせずに、他の VIS アプローチと比較して優れた精度を達成する、固有クラスター VIS と呼ばれる新しい弱教師あり手法を導入しています。
この方法は、時間固有値損失 (TEL) とクリップレベルの品質クラスター係数 (QCC) という 2 つの重要な革新に基づいています。
TEL は、グラフ隣接行列から導出されたラプラシアン行列の固有値を利用することにより、時間的コヒーレンスを保証します。
この損失関数は、隣接するフレームの固有値間の平均絶対誤差 (MAE) を最小限に抑えることで、滑らかな遷移と時間の経過に伴う安定したセグメンテーション境界を促進し、時間的不連続性を減らし、全体的なセグメンテーション品質を向上させます。
QCC は K 平均法を採用し、グラウンド トゥルース マスクに依存せずに時空間クラスターの品質を保証します。
QCC は、Davies-Bouldin スコアを使用して特徴識別の教師なし測定を提供し、モデルが自己評価してさまざまなオブジェクト分布に適応できるようにし、テスト段階での堅牢性を強化します。
これらの機能強化は計算効率が高く簡単であり、注釈付きデータを追加しなくても大幅なパフォーマンスの向上を実現します。
提案された固有クラスター VIS 手法は YouTube-VIS 2019/2021 および OVIS データセットで評価され、完全教師付き VIS アプローチと弱く教師付き VIS アプローチの間のパフォーマンスのギャップを効果的に狭めることが実証されています。
コードは https://github.com/farnooshar/EigenClusterVIS から入手できます。

要約(オリジナル)

The performance of Video Instance Segmentation (VIS) methods has improved significantly with the advent of transformer networks. However, these networks often face challenges in training due to the high annotation cost. To address this, unsupervised and weakly-supervised methods have been developed to reduce the dependency on annotations. This work introduces a novel weakly-supervised method called Eigen-cluster VIS that, without requiring any mask annotations, achieves competitive accuracy compared to other VIS approaches. This method is based on two key innovations: a Temporal Eigenvalue Loss (TEL) and a clip-level Quality Cluster Coefficient (QCC). The TEL ensures temporal coherence by leveraging the eigenvalues of the Laplacian matrix derived from graph adjacency matrices. By minimizing the mean absolute error (MAE) between the eigenvalues of adjacent frames, this loss function promotes smooth transitions and stable segmentation boundaries over time, reducing temporal discontinuities and improving overall segmentation quality. The QCC employs the K-means method to ensure the quality of spatio-temporal clusters without relying on ground truth masks. Using the Davies-Bouldin score, the QCC provides an unsupervised measure of feature discrimination, allowing the model to self-evaluate and adapt to varying object distributions, enhancing robustness during the testing phase. These enhancements are computationally efficient and straightforward, offering significant performance gains without additional annotated data. The proposed Eigen-Cluster VIS method is evaluated on the YouTube-VIS 2019/2021 and OVIS datasets, demonstrating that it effectively narrows the performance gap between the fully-supervised and weakly-supervised VIS approaches. The code is available on: https://github.com/farnooshar/EigenClusterVIS

arxiv情報

著者 Farnoosh Arefi,Amir M. Mansourian,Shohreh Kasaei
発行日 2024-08-29 16:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク