End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning

要約

ビデオからの時間アクション セグメンテーション (TAS) は、複数のアクション クラスを持つ長いビデオに対するフレーム認識タスクの一種です。
長いビデオのビデオ理解タスクとして、現在の方法では通常、マルチモダリティ動作認識モデルと時間モデルを組み合わせて、特徴シーケンスをラベルシーケンスに変換します。
このアプローチはオフライン シナリオにのみ適用できるため、TAS アプリケーションが大幅に制限されます。
したがって、この論文では、強化学習によるエンドツーエンドのストリーミング ビデオ時間的アクション セグメンテーション (SVTAS-RL) を提案します。
TAS をアクション セグメント クラスタリング タスクとして扱うエンドツーエンド SVTAS は、TAS のアプリケーション シナリオを拡張できます。
RL は、一貫性のない最適化の目的と方向の問題を軽減するために使用されます。
広範な実験を通じて、SVTAS-RL モデルは複数のデータセットで TAS の最先端モデルに匹敵するパフォーマンスを達成し、超長時間ビデオ データセット EGTEA でより大きな利点を示します。
これは、私たちの方法が現在のすべての TAS モデルをエンドツーエンドで置き換えることができ、SVTAS-RL が長いビデオ TAS により適していることを示しています。
コードは https://github.com/Thinksky5124/SVTAS で入手できます。

要約(オリジナル)

Temporal Action Segmentation (TAS) from video is a kind of frame recognition task for long video with multiple action classes. As an video understanding task for long videos, current methods typically combine multi-modality action recognition models with temporal models to convert feature sequences to label sequences. This approach can only be applied to offline scenarios, which severely limits the TAS application. Therefore, this paper proposes an end-to-end Streaming Video Temporal Action Segmentation with Reinforce Learning (SVTAS-RL). The end-to-end SVTAS which regard TAS as an action segment clustering task can expand the application scenarios of TAS; and RL is used to alleviate the problem of inconsistent optimization objective and direction. Through extensive experiments, the SVTAS-RL model achieves a competitive performance to the state-of-the-art model of TAS on multiple datasets, and shows greater advantages on the ultra-long video dataset EGTEA. This indicates that our method can replace all current TAS models end-to-end and SVTAS-RL is more suitable for long video TAS. Code is availabel at https://github.com/Thinksky5124/SVTAS.

arxiv情報

著者 Wujun Wen,Jinrong Zhang,Shenglan Liu,Yunheng Li,Qifeng Li,Lin Feng
発行日 2023-09-27 14:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク