VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning

要約

手続き的ビデオ表現学習は、現在のビデオ入力(一般的にはテキスト注釈と連動している)から未来を予測・予測できるエージェントを学習することを目的とした、活発な研究分野である。先行研究は、視覚エンコーダと予測モデルの大規模な事前学習と言語監視に依存していることが多い。しかし、ノイズの多いテキスト監視を伴うビデオクリップシーケンスの学習に計算集約的な事前学習を拡張する必要性と有効性は、先行研究によってまだ十分に検証されていない。本論文では、事前訓練された市販の強力な視覚エンコーダと、適切に設計された予測モデルにより、予測モデルの事前訓練を必要とせず、言語やASRによる追加的な監視を必要とせずに、予測と手続き計画において最先端の(SoTA)性能を達成できることを示す。ピクセル空間から表現を学習する代わりに、我々の手法は、一般に利用可能な視覚エンコーダの潜在的埋め込み空間を利用する。観察されたステップの凍結されたクリップレベルの埋め込みを条件として、未見のステップの動作を予測することで、我々の予測モデルは、拡散変換における最近の進歩を活用し、反復的なノイズ除去を通して、予測用のロバストな表現を学習することができる(Peebles & Xie, 2023)。4つのデータセット(NIV、CrossTask、COIN、Ego4D-v2)において、合計5つの手続き学習タスクの実証研究を行った結果、我々のモデルは、ロングホライズン行動予測において、強力なベースラインを前進させた(+2.動詞ED@20で+2.6%、名詞ED@20で+3.1%)、ステップ予測(+5.0%)、タスク分類(+3.8%)、手順計画タスク(成功率で+2.28%、mAccで+3.39%、mIoUで+0.90%)でSoTAを大幅に改善した。

要約(オリジナル)

Procedural video representation learning is an active research area where the objective is to learn an agent which can anticipate and forecast the future given the present video input, typically in conjunction with textual annotations. Prior works often rely on large-scale pretraining of visual encoders and prediction models with language supervision. However, the necessity and effectiveness of extending compute intensive pretraining to learn video clip sequences with noisy text supervision have not yet been fully validated by previous works. In this work, we show that a strong off-the-shelf frozen pretrained visual encoder, along with a well designed prediction model, can achieve state-of-the-art (SoTA) performance in forecasting and procedural planning without the need for pretraining the prediction model, nor requiring additional supervision from language or ASR. Instead of learning representations from pixel space, our method utilizes the latent embedding space of publicly available vision encoders. By conditioning on frozen clip-level embeddings from observed steps to predict the actions of unseen steps, our prediction model is able to learn robust representations for forecasting through iterative denoising – leveraging the recent advances in diffusion transformers (Peebles & Xie, 2023). Empirical studies over a total of five procedural learning tasks across four datasets (NIV, CrossTask, COIN and Ego4D-v2) show that our model advances the strong baselines in long-horizon action anticipation (+2.6% in Verb ED@20, +3.1% in Noun ED@20), and significantly improves the SoTA in step forecasting (+5.0%), task classification (+3.8%), and procedure planning tasks (up to +2.28% in success rate, +3.39% in mAcc, and +0.90% in mIoU).

arxiv情報

著者 Han Lin,Tushar Nagarajan,Nicolas Ballas,Mido Assran,Mojtaba Komeili,Mohit Bansal,Koustuv Sinha
発行日 2024-10-04 14:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク