Ego-Only: Egocentric Action Detection without Exocentric Pretraining

要約

本発表は、一人称視点映像に対して、三人称視点映像の事前学習を行わずに、最先端の行動検出を可能にする初の学習パイプライン、Ego-Onlyを提案する。これまでのアプローチでは、自己中心的なモデルはゼロから効果的に学習できないこと、また、自己中心的な表現は一人称視点映像にうまく伝達されることが分かっていた。本論文では、この2つの観測を再検討する。この2つの領域を隔てる大きなコンテンツと外観のギャップに動機づけられ、我々は中心的な事前学習なしに中心的なモデルの効果的な学習を可能にする戦略を提案する。我々のエゴオンリーパイプラインはシンプルである。このパイプラインは、時間的セグメンテーションのために微調整されたマスクされたオートエンコーダを用いてビデオ表現を学習する。学習された特徴は、既製の時間的行動定位手法に供給され、行動を検出する。我々は、2つの確立された自己中心的なビデオデータセットで我々のアプローチを評価する。Ego4DとEPIC-Kitchens-100である。Ego4Dでは、我々のEgo-Onlyは、一桁多いラベルを使用する外心性の事前学習手法と同程度であった。EPIC-Kitchens-100では、Ego-Onlyは中心学習より2.1%(動詞)、1.8%(名詞)上回り、最先端を行く結果を得た。

要約(オリジナル)

We present Ego-Only, the first training pipeline that enables state-of-the-art action detection on egocentric (first-person) videos without any form of exocentric (third-person) pretraining. Previous approaches found that egocentric models cannot be trained effectively from scratch and that exocentric representations transfer well to first-person videos. In this paper we revisit these two observations. Motivated by the large content and appearance gap separating the two domains, we propose a strategy that enables effective training of egocentric models without exocentric pretraining. Our Ego-Only pipeline is simple. It trains the video representation with a masked autoencoder finetuned for temporal segmentation. The learned features are then fed to an off-the-shelf temporal action localization method to detect actions. We evaluate our approach on two established egocentric video datasets: Ego4D and EPIC-Kitchens-100. On Ego4D, our Ego-Only is on-par with exocentric pretraining methods that use an order of magnitude more labels. On EPIC-Kitchens-100, our Ego-Only even outperforms exocentric pretraining (by 2.1% on verbs and by 1.8% on nouns), setting a new state-of-the-art.

arxiv情報

著者 Huiyu Wang,Mitesh Kumar Singh,Lorenzo Torresani
発行日 2023-01-03 22:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク