4D Panoptic Scene Graph Generation

要約

私たちは 3 次元空間に生きながら、時間という 4 次元を進んでいます。
人工知能がこのような 4D 環境を包括的に理解できるようにするために、動的な 4D 世界で知覚される生の視覚データと高レベルの視覚的理解を橋渡しする新しい表現である 4D パノプティック シーン グラフ (PSG-4D) を導入します。
具体的には、PSG-4D は、豊富な 4D 感覚データを、正確な位置およびステータス情報を持つエンティティを表すノードと、時間的関係を捉えるエッジに抽象化します。
この新しい分野の研究を促進するために、合計 100 万フレームの 3K RGB-D ビデオで構成される豊富な注釈付き PSG-4D データセットを構築します。各フレームには 4D パノプティック セグメンテーション マスクときめ細かい動的シーンがラベル付けされています。
グラフ。
PSG-4D を解決するために、パノプティック セグメンテーション マスクを予測し、時間軸に沿ってマスクを追跡し、リレーション コンポーネントを介して対応するシーン グラフを生成できる Transformer ベースのモデルである PSG4DFormer を提案します。
新しいデータセットに関する広範な実験により、私たちの手法が PSG-4D に関する将来の研究の強力なベースラインとして機能できることが示されました。
最後に、実際のアプリケーション例を示して、大規模な言語モデルを PSG-4D システムに統合することで動的なシーンの理解をどのように達成できるかを示します。

要約(オリジナル)

We are living in a three-dimensional space while moving forward through a fourth dimension: time. To allow artificial intelligence to develop a comprehensive understanding of such a 4D environment, we introduce 4D Panoptic Scene Graph (PSG-4D), a new representation that bridges the raw visual data perceived in a dynamic 4D world and high-level visual understanding. Specifically, PSG-4D abstracts rich 4D sensory data into nodes, which represent entities with precise location and status information, and edges, which capture the temporal relations. To facilitate research in this new area, we build a richly annotated PSG-4D dataset consisting of 3K RGB-D videos with a total of 1M frames, each of which is labeled with 4D panoptic segmentation masks as well as fine-grained, dynamic scene graphs. To solve PSG-4D, we propose PSG4DFormer, a Transformer-based model that can predict panoptic segmentation masks, track masks along the time axis, and generate the corresponding scene graphs via a relation component. Extensive experiments on the new dataset show that our method can serve as a strong baseline for future research on PSG-4D. In the end, we provide a real-world application example to demonstrate how we can achieve dynamic scene understanding by integrating a large language model into our PSG-4D system.

arxiv情報

著者 Jingkang Yang,Jun Cen,Wenxuan Peng,Shuai Liu,Fangzhou Hong,Xiangtai Li,Kaiyang Zhou,Qifeng Chen,Ziwei Liu
発行日 2024-05-16 17:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク