要約
時空間シーン グラフは、シーンを個々のオブジェクトとそれらのペアごとの時間的関係に分解することにより、ビデオ内のインタラクションを表します。
オブジェクト間のきめの細かいペアごとの関係を長期的に予測することは、困難な問題です。
この目的を達成するために、シーン グラフ予測 (SGA) のタスクを導入します。
私たちは、オブジェクト間の将来のペア関係を予測するためのベースラインとして最先端のシーン グラフ生成方法を採用し、新しいアプローチの SceneSayer を提案します。
SceneSayer では、オブジェクト中心の関係表現を利用して、観察されたビデオ フレームについて推論し、オブジェクト間の関係の進化をモデル化します。
私たちは連続時間の観点を取り、NeuralODE と NeuralSDE の概念をそれぞれ使用して、オブジェクト相互作用の進化の潜在的なダイナミクスをモデル化します。
常微分方程式と確率微分方程式をそれぞれ解くことにより、将来の関係の表現を推測します。
Action Genome データセットに対する広範な実験により、提案された方法の有効性が検証されています。
要約(オリジナル)
Spatio-temporal scene graphs represent interactions in a video by decomposing scenes into individual objects and their pair-wise temporal relationships. Long-term anticipation of the fine-grained pair-wise relationships between objects is a challenging problem. To this end, we introduce the task of Scene Graph Anticipation (SGA). We adapt state-of-the-art scene graph generation methods as baselines to anticipate future pair-wise relationships between objects and propose a novel approach SceneSayer. In SceneSayer, we leverage object-centric representations of relationships to reason about the observed video frames and model the evolution of relationships between objects. We take a continuous time perspective and model the latent dynamics of the evolution of object interactions using concepts of NeuralODE and NeuralSDE, respectively. We infer representations of future relationships by solving an Ordinary Differential Equation and a Stochastic Differential Equation, respectively. Extensive experimentation on the Action Genome dataset validates the efficacy of the proposed methods.
arxiv情報
著者 | Rohith Peddi,Saksham Singh,Saurabh,Parag Singla,Vibhav Gogate |
発行日 | 2024-07-19 12:40:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google