要約
ビデオ内の長期的なコンテキストをモデル化することは、時間的なアクションのセグメンテーションを含む多くのきめの細かいタスクにとって非常に重要です。
まだ未解決の興味深い問題は、最適なパフォーマンスを得るためにどれだけの長期的な時間的コンテキストが必要かということです。
トランスフォーマーはビデオの長期的なコンテキストをモデル化できますが、長いビデオでは計算量が法外になります。
したがって、時間的アクションのセグメンテーションに関する最近の研究では、時間的畳み込みネットワークと、ローカルな時間ウィンドウに対してのみ計算される自己注意を組み合わせています。
これらのアプローチは良好な結果を示しますが、ビデオの完全なコンテキストをキャプチャできないため、パフォーマンスが制限されます。
この研究では、ビデオの完全なコンテキストをキャプチャするためにまばらな注意を活用するトランスフォーマーベースのモデルを導入することにより、時間的アクションのセグメンテーションにどれだけの長期的な時間的コンテキストが必要であるかに答えようとします。
時間的アクション セグメンテーション用の 3 つのデータセット、つまり 50Salads、Breakfast、Assembly101 の現在の最先端モデルとモデルを比較します。
私たちの実験は、時間的アクションのセグメンテーションで最高のパフォーマンスを得るには、ビデオの完全なコンテキストをモデリングする必要があることを示しています。
要約(オリジナル)
Modeling long-term context in videos is crucial for many fine-grained tasks including temporal action segmentation. An interesting question that is still open is how much long-term temporal context is needed for optimal performance. While transformers can model the long-term context of a video, this becomes computationally prohibitive for long videos. Recent works on temporal action segmentation thus combine temporal convolutional networks with self-attentions that are computed only for a local temporal window. While these approaches show good results, their performance is limited by their inability to capture the full context of a video. In this work, we try to answer how much long-term temporal context is required for temporal action segmentation by introducing a transformer-based model that leverages sparse attention to capture the full context of a video. We compare our model with the current state of the art on three datasets for temporal action segmentation, namely 50Salads, Breakfast, and Assembly101. Our experiments show that modeling the full context of a video is necessary to obtain the best performance for temporal action segmentation.
arxiv情報
著者 | Emad Bahrami,Gianpiero Francesca,Juergen Gall |
発行日 | 2023-09-25 14:58:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google