Text-Derived Knowledge Helps Vision: A Simple Cross-modal Distillation for Video-based Action Anticipation

要約

ビデオで将来の行動を予測することは、多くの自律的および支援技術に役立ちます。
以前のほとんどのアクション予測作業は、これをビジョン モダリティの問題として扱います。モデルは、主にアクション予測データセットのビデオ機能からタスク情報を学習します。
ただし、アクション シーケンスに関する知識は、外部のテキスト データから取得することもできます。
この作業では、事前トレーニング済みの言語モデルの知識をどのように適応させ、視覚ベースのアクション予測モデルに蒸留するかを示します。
単純な蒸留技術が効果的な知識伝達を達成し、2 つの行動予想データセット (EGTEA-GAZE+ で 3.5% の相対ゲイン、EPIC-KITCHEN 55 で 7.2% の相対ゲイン) の強力なビジョン モデル (Anticipative Vision Transformer) で一貫したゲインを提供できることを示します。
)、新しい最先端の結果をもたらします。

要約(オリジナル)

Anticipating future actions in a video is useful for many autonomous and assistive technologies. Most prior action anticipation work treat this as a vision modality problem, where the models learn the task information primarily from the video features in the action anticipation datasets. However, knowledge about action sequences can also be obtained from external textual data. In this work, we show how knowledge in pretrained language models can be adapted and distilled into vision-based action anticipation models. We show that a simple distillation technique can achieve effective knowledge transfer and provide consistent gains on a strong vision model (Anticipative Vision Transformer) for two action anticipation datasets (3.5% relative gain on EGTEA-GAZE+ and 7.2% relative gain on EPIC-KITCHEN 55), giving a new state-of-the-art result.

arxiv情報

著者 Sayontan Ghosh,Tanvi Aggarwal,Minh Hoai,Niranjan Balasubramanian
発行日 2023-02-21 06:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク