Distill and Collect for Semi-Supervised Temporal Action Segmentation

要約

最近の時間的アクションセグメンテーションのアプローチは、効果的な学習時にフレームのアノテーションを必要とする。このアノテーションは非常に高価であり、取得に時間がかかる。このため、限られたアノテーションデータしか利用できない場合には、その性能に限界がある。これに対し、我々はインターネットを漁ることで簡単に注釈のない大規模な動画コーパスを収集することができる。そこで、本論文では、注釈付き動画と未注釈の動画から同時に知識を活用できる時間的行動セグメンテーションタスクのためのアプローチを提案する。本アプローチでは、マルチストリーム蒸留法を用いて、フレーム予測を繰り返し精緻化し、最終的にそれらを結合する。また、本モデルでは、フレームラベルを推定する際に、時間的制約として行動順序を予測し、非注釈映像の監督不足に対処する。提案手法を2種類のデータセットで評価した結果、限られたアノテーションにも関わらず、完全な監視と同等の性能を達成できることが実証された。

要約(オリジナル)

Recent temporal action segmentation approaches need frame annotations during training to be effective. These annotations are very expensive and time-consuming to obtain. This limits their performances when only limited annotated data is available. In contrast, we can easily collect a large corpus of in-domain unannotated videos by scavenging through the internet. Thus, this paper proposes an approach for the temporal action segmentation task that can simultaneously leverage knowledge from annotated and unannotated video sequences. Our approach uses multi-stream distillation that repeatedly refines and finally combines their frame predictions. Our model also predicts the action order, which is later used as a temporal constraint while estimating frames labels to counter the lack of supervision for unannotated videos. In the end, our evaluation of the proposed approach on two different datasets demonstrates its capability to achieve comparable performance to the full supervision despite limited annotation.

arxiv情報

著者 Sovan Biswas,Anthony Rhodes,Ramesh Manuvinakurike,Giuseppe Raffa,Richard Beckwith
発行日 2022-11-03 17:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク