このホワイト ペーパーでは、完全なタイムスタンプ監視セットアップでのシーケンスからシーケンスへの変換 (seq2seq) によるビデオ アクション セグメンテーションの統合フレームワークを紹介します。
現在の最先端のフレーム レベルの予測方法とは対照的に、アクション セグメンテーションを seq2seq 変換タスク、つまり一連のビデオ フレームを一連のアクション セグメントにマッピングするものと見なします。
提案された方法には、短い出力シーケンスと比較的少数のビデオではなく長い入力シーケンスに対処するために、標準の Transformer seq2seq 変換モデルに一連の修正と補助損失関数が含まれます。
最後に、提案された制約付き k-medoids アルゴリズムを介してフレームワークをタイムスタンプ監視設定に拡張し、疑似セグメンテーションを生成します。
This paper introduces a unified framework for video action segmentation via sequence to sequence (seq2seq) translation in a fully and timestamp supervised setup. In contrast to current state-of-the-art frame-level prediction methods, we view action segmentation as a seq2seq translation task, i.e., mapping a sequence of video frames to a sequence of action segments. Our proposed method involves a series of modifications and auxiliary loss functions on the standard Transformer seq2seq translation model to cope with long input sequences opposed to short output sequences and relatively few videos. We incorporate an auxiliary supervision signal for the encoder via a frame-wise loss and propose a separate alignment decoder for an implicit duration prediction. Finally, we extend our framework to the timestamp supervised setting via our proposed constrained k-medoids algorithm to generate pseudo-segmentations. Our proposed framework performs consistently on both fully and timestamp supervised settings, outperforming or competing state-of-the-art on several datasets.
著者 | Nadine Behrmann,S. Alireza Golestaneh,Zico Kolter,Juergen Gall,Mehdi Noroozi |
発行日 | 2022-09-01 17:46:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google