Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning

要約

既存のビデオキャプションメソッドは、オブジェクトの動作の浅いまたは単純な表現を提供するだけであり、表面的で曖昧な説明をもたらします。
ただし、オブジェクトの動作は動的で複雑です。
オブジェクトの動作の本質を包括的にキャプチャするために、動的アクションセマンティックアウェアグラフトランスを提案します。
第一に、マルチスケールの時間モデリングモジュールは、長期的および短期的な潜在アクション機能を柔軟に学習するように設計されています。
時間スケール全体で潜在的なアクション機能を獲得するだけでなく、ローカルな潜在的なアクションの詳細を考慮して、潜在的なアクション表現の一貫性と敏感さを高めます。
第二に、オブジェクトの動作に関連するセマンティック表現を適応的にキャプチャし、アクション表現の豊かさと正確性を高めるために、視覚的なセマンティック認識モジュールが提案されています。
これら2つのモジュールの共同作業を活用することにより、豊富な行動表現を獲得して、人間のような自然な説明を生成することができます。
最後に、この豊富な動作表現とオブジェクト表現を使用して、オブジェクトトランスに供給されてオブジェクトとアクションの間の複雑な時間的依存関係をモデル化するために、時間オブジェクトアクショングラフを構築します。
推論段階に複雑さを追加することを避けるために、オブジェクトの行動知識は、知識の蒸留を通じて単純なネットワークに蒸留されます。
MSVDおよびMSR-VTTデータセットの実験結果は、提案された方法が複数のメトリックにわたって大幅なパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Existing video captioning methods merely provide shallow or simplistic representations of object behaviors, resulting in superficial and ambiguous descriptions. However, object behavior is dynamic and complex. To comprehensively capture the essence of object behavior, we propose a dynamic action semantic-aware graph transformer. Firstly, a multi-scale temporal modeling module is designed to flexibly learn long and short-term latent action features. It not only acquires latent action features across time scales, but also considers local latent action details, enhancing the coherence and sensitiveness of latent action representations. Secondly, a visual-action semantic aware module is proposed to adaptively capture semantic representations related to object behavior, enhancing the richness and accurateness of action representations. By harnessing the collaborative efforts of these two modules,we can acquire rich behavior representations to generate human-like natural descriptions. Finally, this rich behavior representations and object representations are used to construct a temporal objects-action graph, which is fed into the graph transformer to model the complex temporal dependencies between objects and actions. To avoid adding complexity in the inference phase, the behavioral knowledge of the objects will be distilled into a simple network through knowledge distillation. The experimental results on MSVD and MSR-VTT datasets demonstrate that the proposed method achieves significant performance improvements across multiple metrics.

arxiv情報

著者 Caihua Liu,Xu Li,Wenjing Xue,Wei Tang,Xia Feng
発行日 2025-02-19 14:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク