要約
ビデオ アクション セグメンテーションは、ビデオをいくつかのアクション セグメントにスライスすることを目的としています。
最近、アノテーション コストの低下により、タイムスタンプ監視が注目を集めています。
アクション セグメントの境界近くのフレームは、2 つの連続するアクション間の遷移領域にあり、あいまいな間隔と呼ばれる不明確なセマンティクスを持っていることがわかります。
ほとんどの既存の方法は、各ビデオのすべてのフレームの疑似ラベルを繰り返し生成して、セグメンテーション モデルをトレーニングします。
ただし、あいまいな間隔は、ノイズの多い不正確な疑似ラベルが割り当てられる可能性が高く、パフォーマンスの低下につながります。
次の2つの部分を含む、タイムスタンプの監視下でモデルをトレーニングするための新しいフレームワークを提案します。
まず、疑似ラベル アンサンブルは、あいまいな間隔で疑似ラベル シーケンスを生成します。この場合、フレームには疑似ラベルがありません。
第二に、反復クラスタリングは、クラスタリングによって擬似ラベルをあいまいな間隔に繰り返し伝播し、擬似ラベルシーケンスを更新してモデルをトレーニングします。
さらに、クラスタリングの損失を導入します。これにより、同じアクション セグメント内のフレームの機能がよりコンパクトになります。
広範な実験により、我々の方法の有効性が示されています。
要約(オリジナル)
Video action segmentation aims to slice the video into several action segments. Recently, timestamp supervision has received much attention due to lower annotation costs. We find the frames near the boundaries of action segments are in the transition region between two consecutive actions and have unclear semantics, which we call ambiguous intervals. Most existing methods iteratively generate pseudo-labels for all frames in each video to train the segmentation model. However, ambiguous intervals are more likely to be assigned with noisy and incorrect pseudo-labels, which leads to performance degradation. We propose a novel framework to train the model under timestamp supervision including the following two parts. First, pseudo-label ensembling generates pseudo-label sequences with ambiguous intervals, where the frames have no pseudo-labels. Second, iterative clustering iteratively propagates the pseudo-labels to the ambiguous intervals by clustering, and thus updates the pseudo-label sequences to train the model. We further introduce a clustering loss, which encourages the features of frames within the same action segment more compact. Extensive experiments show the effectiveness of our method.
arxiv情報
著者 | Dazhao Du,Enhan Li,Lingyu Si,Fanjiang Xu,Fuchun Sun |
発行日 | 2022-12-22 13:35:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google