Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception

要約

マルチビュービデオを受け入れるビデオベースのアクション認識モデルをトレーニングする場合、フレームレベルのラベルに注釈を付けるのは面倒で困難です。
ただし、シーケンスレベルのラベルに注釈を付けるのは比較的簡単です。
この種の粗いアノテーションは、弱いラベルと呼ばれます。
ただし、フレームレベルの認識に対して弱いラベルを使用してマルチビュービデオベースのアクション認識モデルをトレーニングすることは困難です。
この論文では、新しい学習フレームワークを提案します。このフレームワークでは、最初に弱いラベルを使用してマルチビュー ビデオベースの基本モデルをトレーニングし、その後、それを下流のフレームレベルの知覚タスクに使用します。
基本モデルは、マルチビュー入力内の各ビューの個別の潜在的な埋め込みを取得するようにトレーニングされます。
弱いラベルを使用してモデルをトレーニングするために、新しい潜在損失関数を提案します。
また、下流のフレームレベルのアクション認識および検出タスクにビュー固有の潜在埋め込みを使用するモデルも提案します。
提案されたフレームワークは、MM Office データセットを使用して、いくつかのベースライン アルゴリズムを比較することによって評価されます。
結果は、提案された基本モデルが弱いラベルを使用して効果的にトレーニングされ、潜在的な埋め込みが下流モデルの精度向上に役立つことを示しています。

要約(オリジナル)

For training a video-based action recognition model that accepts multi-view video, annotating frame-level labels is tedious and difficult. However, it is relatively easy to annotate sequence-level labels. This kind of coarse annotations are called as weak labels. However, training a multi-view video-based action recognition model with weak labels for frame-level perception is challenging. In this paper, we propose a novel learning framework, where the weak labels are first used to train a multi-view video-based base model, which is subsequently used for downstream frame-level perception tasks. The base model is trained to obtain individual latent embeddings for each view in the multi-view input. For training the model using the weak labels, we propose a novel latent loss function. We also propose a model that uses the view-specific latent embeddings for downstream frame-level action recognition and detection tasks. The proposed framework is evaluated using the MM Office dataset by comparing several baseline algorithms. The results show that the proposed base model is effectively trained using weak labels and the latent embeddings help the downstream models improve accuracy.

arxiv情報

著者 Vijay John,Yasutomo Kawanishi
発行日 2024-03-18 09:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク