CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos

要約

ビデオ シーン グラフ生成 (VidSGG) は、ビデオ シーケンス内のオブジェクト間の複雑な関係とその時間的ダイナミクスをキャプチャして解釈する革新的なアプローチとして登場しました。
このペーパーでは、航空ビデオにおける複数のオブジェクトの関係モデリングに焦点を当てた新しい AeroEye データセットを紹介します。
当社の AeroEye データセットには、さまざまなドローン シーンが含まれており、オブジェクト間の複雑な関係や空間配置を捉える、視覚的に包括的かつ正確な述語のコレクションが含まれています。
この目的を達成するために、循環的な方法で相互作用の履歴を継続的に更新することにより、モデルが直接的および長距離の時間依存性の両方をキャプチャできるようにする新しい Cyclic Graph Transformer (CYCLO) アプローチを提案します。
提案されたアプローチでは、固有の循環パターンを持つシーケンスを処理し、オブジェクトの関係を正しい順序で処理することもできます。
したがって、情報損失を最小限に抑えながら、周期的で重複する関係を効果的にキャプチャできます。
AeroEye データセットに関する広範な実験により、提案された CYCLO モデルの有効性が実証され、ドローン ビデオのシーン理解を実行できる可能性が実証されました。
最後に、CYCLO メソッドは、2 つの実際のシーン グラフ生成ベンチマーク、つまり PVSG と ASPIRe で最先端 (SOTA) の結果を一貫して達成します。

要約(オリジナル)

Video scene graph generation (VidSGG) has emerged as a transformative approach to capturing and interpreting the intricate relationships among objects and their temporal dynamics in video sequences. In this paper, we introduce the new AeroEye dataset that focuses on multi-object relationship modeling in aerial videos. Our AeroEye dataset features various drone scenes and includes a visually comprehensive and precise collection of predicates that capture the intricate relationships and spatial arrangements among objects. To this end, we propose the novel Cyclic Graph Transformer (CYCLO) approach that allows the model to capture both direct and long-range temporal dependencies by continuously updating the history of interactions in a circular manner. The proposed approach also allows one to handle sequences with inherent cyclical patterns and process object relationships in the correct sequential order. Therefore, it can effectively capture periodic and overlapping relationships while minimizing information loss. The extensive experiments on the AeroEye dataset demonstrate the effectiveness of the proposed CYCLO model, demonstrating its potential to perform scene understanding on drone videos. Finally, the CYCLO method consistently achieves State-of-the-Art (SOTA) results on two in-the-wild scene graph generation benchmarks, i.e., PVSG and ASPIRe.

arxiv情報

著者 Trong-Thuan Nguyen,Pha Nguyen,Xin Li,Jackson Cothren,Alper Yilmaz,Khoa Luu
発行日 2024-10-07 16:20:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク