要約
画像やビデオにおける物体の状態の変化を予測することは困難な問題であり、その解決策は視覚ベースのシーンの理解、自動監視システム、および行動計画に重要な意味を持ちます。
この研究では、この問題を解決するための最初の方法を提案します。
提案手法は、人間のまだ見ぬ行動の結果として近い将来に起こる物体の状態変化を予測します。
この新しい問題に対処するために、最近の視覚情報を表す学習された視覚特徴と、過去のオブジェクトの状態変化やアクションを表す自然言語 (NLP) 特徴を統合する新しいフレームワークを提案します。
多数のインタラクション シナリオにわたる一人称視点ビデオの大規模なコレクションを提供する、広範でやりがいのある Ego4D データセットを活用して、Ego4D-OSCA として知られるオブジェクト状態変化予測タスク (OSCA) 用に新たに厳選された注釈データを導入します。
動的シナリオにおけるオブジェクトの状態変化を予測する際の、提案された方法の有効性を実証する広範な実験評価が実施されました。
提案された研究は、ビデオ理解システムの予測パフォーマンスを向上させるために、ビデオと言語キューを統合する可能性を強調しています。
さらに、これは、オブジェクトの状態変化の予測という新しいタスクに関する将来の研究の基礎を築きます。
ソースコードと新規アノテーションデータ(Ego4D-OSCA)を公開します。
要約(オリジナル)
Anticipating object state changes in images and videos is a challenging problem whose solution has important implications in vision-based scene understanding, automated monitoring systems, and action planning. In this work, we propose the first method for solving this problem. The proposed method predicts object state changes that will occur in the near future as a result of yet unseen human actions. To address this new problem, we propose a novel framework that integrates learnt visual features that represent the recent visual information, with natural language (NLP) features that represent past object state changes and actions. Leveraging the extensive and challenging Ego4D dataset which provides a large-scale collection of first-person perspective videos across numerous interaction scenarios, we introduce new curated annotation data for the object state change anticipation task (OSCA), noted as Ego4D-OSCA. An extensive experimental evaluation was conducted that demonstrates the efficacy of the proposed method in predicting object state changes in dynamic scenarios. The proposed work underscores the potential of integrating video and linguistic cues to enhance the predictive performance of video understanding systems. Moreover, it lays the groundwork for future research on the new task of object state change anticipation. The source code and the new annotation data (Ego4D-OSCA) will be made publicly available.
arxiv情報
著者 | Victoria Manousaki,Konstantinos Bacharidis,Filippos Gouidis,Konstantinos Papoutsakis,Dimitris Plexousakis,Antonis Argyros |
発行日 | 2024-05-21 13:40:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google