TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation

要約

大規模なデータセットでトレーニングするとビデオ インスタンスのセグメンテーションのパフォーマンスを向上させることができますが、VIS のアノテーション付きデータセットは人件費が高いためスケールアップが困難です。
私たちが所有しているのは、分離された分野固有の多数のデータセットであるため、データ量と多様性を強化するために、データセットの集合全体にわたってモデルを共同でトレーニングすることは魅力的です。
ただし、カテゴリ空間の不均一性により、マスク精度はデータ量とともに増加するため、複数のデータセットを利用するだけでは、異なる分類法に対するモデルの注意が薄れてしまいます。
したがって、分類精度を向上させながら、データ規模を拡大し、分類空間を充実させることが重要です。
この研究では、追加の分類情報を提供することでモデルが特定の分類に集中できるように分析し、この重要な課題に対処するために、分類を意識したビデオ インスタンス セグメンテーションのためのマルチデータセット共同トレーニング (TMT-VIS) という名前のモデルを提案します。
具体的には、最初に入力ビデオから分類情報をコンパイルし、次にトランスフォーマー デコーダの前にこれらの事前分類をインスタンス クエリに集約する 2 段階の分類集約モジュールを設計します。
YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVO を含む 4 つの人気があり挑戦的なベンチマークで広範な実験評価を実施しています。
私たちのモデルは、ベースライン ソリューションに比べて大幅な改善を示し、すべてのベンチマークで新しい最先端の記録を樹立しました。
これらの魅力的で心強い結果は、私たちのアプローチの有効性と一般性を示しています。
コードは https://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS) で入手できます。

要約(オリジナル)

Training on large-scale datasets can boost the performance of video instance segmentation while the annotated datasets for VIS are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly train models across the aggregation of datasets to enhance data volume and diversity. However, due to the heterogeneity in category space, as mask precision increases with the data volume, simply utilizing multiple datasets will dilute the attention of models on different taxonomies. Thus, increasing the data scale and enriching taxonomy space while improving classification precision is important. In this work, we analyze that providing extra taxonomy information can help models concentrate on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital challenge. Specifically, we design a two-stage taxonomy aggregation module that first compiles taxonomy information from input videos and then aggregates these taxonomy priors into instance queries before the transformer decoder. We conduct extensive experimental evaluations on four popular and challenging benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our model shows significant improvement over the baseline solutions, and sets new state-of-the-art records on all benchmarks. These appealing and encouraging results demonstrate the effectiveness and generality of our approach. The code is available at https://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)

arxiv情報

著者 Rongkun Zheng,Lu Qi,Xi Chen,Yi Wang,Kun Wang,Yu Qiao,Hengshuang Zhao
発行日 2023-12-12 05:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク