Beyond still images: Temporal features and input variance resilience

要約

従来、視覚モデルは主に静止画像から抽出された空間特徴に依存しており、自然視覚において脳によって処理される時空間特徴の連続的な流れから逸脱していました。
多数のビデオ理解モデルが登場していますが、時空間特徴を備えた画像理解モデルにビデオを組み込むことは限られています。
入力の変化に対して顕著な回復力を示す自然視覚からインスピレーションを得た私たちの研究は、ビデオで訓練された視覚理解のための脳にヒントを得たモデルの開発に焦点を当てています。
私たちの調査結果は、静止画像ではなくビデオでトレーニングし、時間的特徴を含むモデルは、入力メディア上のさまざまな変更に対する耐性がより高まることを示しています。

要約(オリジナル)

Traditionally, vision models have predominantly relied on spatial features extracted from static images, deviating from the continuous stream of spatiotemporal features processed by the brain in natural vision. While numerous video-understanding models have emerged, incorporating videos into image-understanding models with spatiotemporal features has been limited. Drawing inspiration from natural vision, which exhibits remarkable resilience to input changes, our research focuses on the development of a brain-inspired model for vision understanding trained with videos. Our findings demonstrate that models that train on videos instead of still images and include temporal features become more resilient to various alternations on input media.

arxiv情報

著者 Amir Hosein Fadaei,Mohammad-Reza A. Dehaqani
発行日 2024-02-14 15:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 パーマリンク