Panoptic Video Scene Graph Generation

要約

包括的な現実世界の視覚認識システムの構築に向けて、私たちはパノプティック シーン グラフ生成 (PVSG) と呼ばれる新しい問題を提案し、研究しています。
PVSG は、既存のビデオ シーン グラフ生成 (VidSGG) 問題に関連しており、ビデオ内の境界ボックスに基づいて人間とオブジェクトとの間の時間的な相互作用に焦点を当てています。
ただし、非剛体オブジェクトや背景の検出における境界ボックスの制限により、VidSGG はビデオを包括的に理解するために重要な重要な詳細を見逃すことがよくあります。
対照的に、PVSG では、シーン グラフ内のノードが、より正確なピクセル レベルのセグメンテーション マスクによって接地される必要があり、これによりシーンの全体的な理解を容易にします。
この新しい分野の研究を進めるために、私たちは PVSG データセットを提供します。このデータセットは、パノプティック セグメンテーション マスクと細かい時間シーン グラフでラベル付けされた合計 150,000 フレームを含む 400 のビデオ (289 の三人称ビデオ + 111 の自己中心的なビデオ) で構成されています。
また、さまざまなベースライン手法を提供し、将来の作業に役立つ設計実践を共有します。

要約(オリジナル)

Towards building comprehensive real-world visual perception systems, we propose and study a new problem called panoptic scene graph generation (PVSG). PVSG relates to the existing video scene graph generation (VidSGG) problem, which focuses on temporal interactions between humans and objects grounded with bounding boxes in videos. However, the limitation of bounding boxes in detecting non-rigid objects and backgrounds often causes VidSGG to miss key details crucial for comprehensive video understanding. In contrast, PVSG requires nodes in scene graphs to be grounded by more precise, pixel-level segmentation masks, which facilitate holistic scene understanding. To advance research in this new area, we contribute the PVSG dataset, which consists of 400 videos (289 third-person + 111 egocentric videos) with a total of 150K frames labeled with panoptic segmentation masks as well as fine, temporal scene graphs. We also provide a variety of baseline methods and share useful design practices for future work.

arxiv情報

著者 Jingkang Yang,Wenxuan Peng,Xiangtai Li,Zujin Guo,Liangyu Chen,Bo Li,Zheng Ma,Kaiyang Zhou,Wayne Zhang,Chen Change Loy,Ziwei Liu
発行日 2023-11-28 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク