要約
インスタンスの埋め込みの区別は、オンライン ビデオ インスタンス セグメンテーション (VIS) で時間を超えてインスタンスを関連付ける際に重要な役割を果たします。
インスタンスの埋め込み学習は、アンカー/ポジティブ/ネガティブ埋め込みのセットであるコントラスト アイテム (CI) に対して計算されたコントラスト損失によって直接監視されます。
最近のオンライン VIS 手法は 1 つの参照フレームのみから得られる CI を活用していますが、これでは高度に識別力のある埋め込みを学習するには不十分であると私たちは主張しています。
直感的には、CI を強化するために考えられる戦略は、トレーニング中に推論フェーズを複製することです。
この目的を達成するために、CI の構築に関してトレーニングと推論のパイプラインを調整することに特化した、Consistent Training for Online VIS (CTVIS) と呼ばれる、シンプルかつ効果的なトレーニング戦略を提案します。
具体的には、CTVIS は、運動量平均エンベディングとメモリ バンク ストレージ メカニズムを参照して推論し、関連するエンベディングにノイズを追加することによって CI を構築します。
このような拡張により、現在のインスタンスの埋め込みと過去のインスタンスの安定した表現の間の信頼できる比較が可能になり、オクルージョン、再識別、変形などの VIS 課題のモデリングに利点がもたらされます。
経験的に、CTVIS は、YTVIS19 (AP 55.1%)、YTVIS21 (AP 50.1%)、OVIS (AP 35.5%) を含む 3 つの VIS ベンチマークで SOTA VIS モデルを最大 +5.0 ポイント上回っています。
さらに、画像から変換された疑似ビデオは、完全に教師付きのモデルを超える堅牢なモデルをトレーニングできることがわかりました。
要約(オリジナル)
The discrimination of instance embeddings plays a vital role in associating instances across time for online video instance segmentation (VIS). Instance embedding learning is directly supervised by the contrastive loss computed upon the contrastive items (CIs), which are sets of anchor/positive/negative embeddings. Recent online VIS methods leverage CIs sourced from one reference frame only, which we argue is insufficient for learning highly discriminative embeddings. Intuitively, a possible strategy to enhance CIs is replicating the inference phase during training. To this end, we propose a simple yet effective training strategy, called Consistent Training for Online VIS (CTVIS), which devotes to aligning the training and inference pipelines in terms of building CIs. Specifically, CTVIS constructs CIs by referring inference the momentum-averaged embedding and the memory bank storage mechanisms, and adding noise to the relevant embeddings. Such an extension allows a reliable comparison between embeddings of current instances and the stable representations of historical instances, thereby conferring an advantage in modeling VIS challenges such as occlusion, re-identification, and deformation. Empirically, CTVIS outstrips the SOTA VIS models by up to +5.0 points on three VIS benchmarks, including YTVIS19 (55.1% AP), YTVIS21 (50.1% AP) and OVIS (35.5% AP). Furthermore, we find that pseudo-videos transformed from images can train robust models surpassing fully-supervised ones.
arxiv情報
著者 | Kaining Ying,Qing Zhong,Weian Mao,Zhenhua Wang,Hao Chen,Lin Yuanbo Wu,Yifan Liu,Chengxiang Fan,Yunzhi Zhuge,Chunhua Shen |
発行日 | 2023-07-24 08:44:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google