TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut

要約

このペーパーでは、自己教師ありトランスフォーマーによって取得された特徴を使用して、画像やビデオ内の顕著なオブジェクトを検出およびセグメント化するグラフベースのアルゴリズムについて説明します。
このアプローチでは、画像またはビデオを構成する画像パッチが完全に接続されたグラフに編成されます。ここでは、トランスフォーマーによって学習された機能を使用して、パッチの各ペア間のエッジがパッチ間の類似性スコアでラベル付けされます。
顕著なオブジェクトの検出とセグメンテーションは、グラフ カット問題として定式化され、従来の正規化カット アルゴリズムを使用して解決されます。
このアプローチは単純ですが、いくつかの一般的な画像とビデオの検出およびセグメンテーション タスクで最先端の結果を達成します。
教師なしオブジェクトの発見の場合、VOC07、VOC12、および COCO20K データセットでテストした場合、このアプローチは競合するアプローチよりもそれぞれ 6.1%、5.7%、および 2.6% 優れています。
画像の教師なし顕著性検出タスクの場合、この方法により、Intersection over Union (IoU) のスコアが 4.4%、5.6%、および 5.2% 向上します。
ECSSD、DUTS、および DUT-OMRON データセットをそれぞれ使用してテストした場合、現在の最先端技術と比較して。
この方法は、DAVIS、SegTV2、および FBMS データセットを使用した教師なしビデオ オブジェクト セグメンテーション タスクでも、競争力のある結果を達成します。

要約(オリジナル)

In this paper, we describe a graph-based algorithm that uses the features obtained by a self-supervised transformer to detect and segment salient objects in images and videos. With this approach, the image patches that compose an image or video are organised into a fully connected graph, where the edge between each pair of patches is labeled with a similarity score between patches using features learned by the transformer. Detection and segmentation of salient objects is then formulated as a graph-cut problem and solved using the classical Normalized Cut algorithm. Despite the simplicity of this approach, it achieves state-of-the-art results on several common image and video detection and segmentation tasks. For unsupervised object discovery, this approach outperforms the competing approaches by a margin of 6.1%, 5.7%, and 2.6%, respectively, when tested with the VOC07, VOC12, and COCO20K datasets. For the unsupervised saliency detection task in images, this method improves the score for Intersection over Union (IoU) by 4.4%, 5.6% and 5.2%. When tested with the ECSSD, DUTS, and DUT-OMRON datasets, respectively, compared to current state-of-the-art techniques. This method also achieves competitive results for unsupervised video object segmentation tasks with the DAVIS, SegTV2, and FBMS datasets.

arxiv情報

著者 Yangtao Wang,Xi Shen,Yuan Yuan,Yuming Du,Maomao Li,Shell Xu Hu,James L Crowley,Dominique Vaufreydaz
発行日 2022-09-01 11:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.ML パーマリンク