REST: REtrieve & Self-Train for generative action recognition

要約

この作業は、生成的なアクション/ビデオ認識モデルのトレーニングに関するもので、その出力は、ビデオを説明する自由形式のアクション固有のキャプション (アクション クラス ラベルではなく) です。
生成的アプローチには、よりきめ細かく、人間が判読できる出力を生成し、自然にオープンワールドであるなどの実用的な利点があります。
この目的のために、事前にトレーニングされたジェネレーティブ ビジョン & ランゲージ (V&L) ファウンデーション モデルをビデオ/アクション認識に適応させることを提案します。
最近、対照的な学習 (CLIP など) でトレーニングされた V&L モデルをビデオ/アクションに適応させる試みがいくつかありましたが、私たちの知る限りでは、生成モデルのこの目標を達成するための最初の方法を提案します。
最初に、生成モデルを直接微調整してアクション クラスを生成すると、深刻なオーバーフィッティングが発生することを示します。
これを軽減するために、REST を導入します。これは、2 つの主要なコンポーネントで構成されるトレーニング フレームワークです。疑似キャプション生成と自己トレーニングによって、生成モデルをアクション/ビデオに適合させるための教師なしの方法です。つまり、アクション固有のラベルを使用しません。
(b)モデルをトレーニングするために各ビデオのさまざまな疑似キャプションのセットを発見するための CLIP に基づく検索アプローチ。
重要なことに、高精度を得るには両方のコンポーネントが必要であることを示しています。
対照的な学習ベースの方法と比較した場合、私たちのアプローチが非常に競争力があることを示すゼロ ショット アクション認識の問題について REST を評価します。
コードが利用可能になります。

要約(オリジナル)

This work is on training a generative action/video recognition model whose output is a free-form action-specific caption describing the video (rather than an action class label). A generative approach has practical advantages like producing more fine-grained and human-readable output, and being naturally open-world. To this end, we propose to adapt a pre-trained generative Vision & Language (V&L) Foundation Model for video/action recognition. While recently there have been a few attempts to adapt V&L models trained with contrastive learning (e.g. CLIP) for video/action, to the best of our knowledge, we propose the very first method that sets outs to accomplish this goal for a generative model. We firstly show that direct fine-tuning of a generative model to produce action classes suffers from severe overfitting. To alleviate this, we introduce REST, a training framework consisting of two key components: an unsupervised method for adapting the generative model to action/video by means of pseudo-caption generation and Self-training, i.e. without using any action-specific labels; (b) a Retrieval approach based on CLIP for discovering a diverse set of pseudo-captions for each video to train the model. Importantly, we show that both components are necessary to obtain high accuracy. We evaluate REST on the problem of zero-shot action recognition where we show that our approach is very competitive when compared to contrastive learning-based methods. Code will be made available.

arxiv情報

著者 Adrian Bulat,Enrique Sanchez,Brais Martinez,Georgios Tzimiropoulos
発行日 2022-09-29 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク