要約
インタラクティブなビデオオブジェクトセグメンテーション(IVOS)は、リアルタイムのヒューマンコンピューターの相互作用を必要とする挑戦的なタスクです。
ユーザーエクスペリエンスを改善するには、ユーザーの入力習慣、セグメンテーション品質、実行時間、メモリの消費を考慮することが重要です。
具体的には、これらのメソッドは、ユーザーが1つのフレームと対話できるため、ユーザーの意図の表現を制限することを可能にします。これらの制限を克服し、人々の使用習慣に合わせて、複数のフレームを同時に受け入れ、相乗的相互作用を調査できるフレームワークを提案します。
フレームを越えて(SIAF)。
具体的には、ユーザーが複数のフレームでさまざまなオブジェクトを自由に注釈できるようにするために、途中のフレームインタラクションモジュールを設計しました。
AFIモジュールは、複数のインタラクティブフレーム間でScribble情報を移行し、マルチフレームマスクを生成します。
さらに、ID Queriedメカニズムを使用して、バッチで複数のオブジェクトを処理します。
さらに、より効率的な伝播と軽量モデルのために、重要な相互作用情報を蓄積するラウンドメモリを使用する以前のマルチラウンド融合モジュールを置き換えるために、切り捨てられた再浸透戦略を設計します。
Swinb-Siafは、Davis 2017で新しい最先端のパフォーマンスを達成しています(89.6%、J&F@60)。
さらに、当社のR50-SIAFは、挑戦的なマルチオブジェクトシナリオの下で、最先端の競合他社よりも3つ以上高速です。
要約(オリジナル)
Interactive Video Object Segmentation (iVOS) is a challenging task that requires real-time human-computer interaction. To improve the user experience, it is important to consider the user’s input habits, segmentation quality, running time and memory consumption.However, existing methods compromise user experience with single input mode and slow running speed. Specifically, these methods only allow the user to interact with one single frame, which limits the expression of the user’s intent.To overcome these limitations and better align with people’s usage habits, we propose a framework that can accept multiple frames simultaneously and explore synergistic interaction across frames (SIAF). Concretely, we designed the Across-Frame Interaction Module that enables users to annotate different objects freely on multiple frames. The AFI module will migrate scribble information among multiple interactive frames and generate multi-frame masks. Additionally, we employ the id-queried mechanism to process multiple objects in batches. Furthermore, for a more efficient propagation and lightweight model, we design a truncated re-propagation strategy to replace the previous multi-round fusion module, which employs an across-round memory that stores important interaction information. Our SwinB-SIAF achieves new state-of-the-art performance on DAVIS 2017 (89.6%, J&F@60). Moreover, our R50-SIAF is more than 3 faster than the state-of-the-art competitor under challenging multi-object scenarios.
arxiv情報
著者 | Kexin Li,Tao Jiang,Zongxin Yang,Yi Yang,Yueting Zhuang,Jun Xiao |
発行日 | 2025-02-07 15:57:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google