Interactive Image Segmentation with Cross-Modality Vision Transformers

要約

インタラクティブな画像セグメンテーションは、画像、クリック、落書き、境界ボックスなどのマルチモーダル データを入力として受け取る手動ガイダンスを使用して、背景からターゲットをセグメント化することを目的としています。
最近、ビジョン トランスフォーマーはいくつかの下流のビジュアル タスクで大きな成功を収めており、この強力なアーキテクチャをインタラクティブなセグメンテーション タスクに導入するためにいくつかの取り組みが行われています。
しかし、以前の作品は 2 つのモダリティ間の関係を無視し、純粋に視覚情報を自己注意で処理する方法を直接嘲笑しています。
この論文では、クロスモダリティビジョントランスフォーマーを使用した、クリックベースのインタラクティブなセグメンテーションのためのシンプルかつ効果的なネットワークを提案します。
クロスモダリティ トランスフォーマーは相互情報を利用して、学習プロセスをより適切にガイドします。
いくつかのベンチマークでの実験により、提案された方法が以前の最先端のモデルと比較して優れたパフォーマンスを達成することが示されています。
失敗のケースを回避するという点での私たちの方法の安定性は、この方法が実用的なアノテーションツールになる可能性を示しています。
コードと事前トレーニングされたモデルは https://github.com/lik1996/iCMFormer でリリースされます。

要約(オリジナル)

Interactive image segmentation aims to segment the target from the background with the manual guidance, which takes as input multimodal data such as images, clicks, scribbles, and bounding boxes. Recently, vision transformers have achieved a great success in several downstream visual tasks, and a few efforts have been made to bring this powerful architecture to interactive segmentation task. However, the previous works neglect the relations between two modalities and directly mock the way of processing purely visual information with self-attentions. In this paper, we propose a simple yet effective network for click-based interactive segmentation with cross-modality vision transformers. Cross-modality transformers exploits mutual information to better guide the learning process. The experiments on several benchmarks show that the proposed method achieves superior performance in comparison to the previous state-of-the-art models. The stability of our method in term of avoiding failure cases shows its potential to be a practical annotation tool. The code and pretrained models will be released under https://github.com/lik1996/iCMFormer.

arxiv情報

著者 Kun Li,George Vosselman,Michael Ying Yang
発行日 2023-07-05 13:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク