要約
既存のビデオシーングラフ生成(VIDSGG)の研究は、完全に監視された方法で訓練されているため、ビデオ内のすべてのフレームを注釈付けする必要があり、画像シーングラフの生成(IMGSGG)と比較して高い注釈コストが発生します。
VIDSGGの注釈コストは、画像キャプションを使用するIMGSGG(WS-IMGSGG)に一般的に使用される弱く監視されたアプローチを採用することで緩和できますが、このようなナイーブな採用を妨げる2つの重要な理由があります。
画像のキャプションとは異なり、ビデオキャプションには、時間関連の詳細を示す一時的なマーカー(例えば、前、その後、その後)と2)変動を含む
アクション期間中、つまり、画像キャプションでの人間のアクションとは異なり、ビデオキャプションでの人間のアクションは、さまざまな期間にわたって展開されます。
これらの問題に対処するために、VIDSGGモデルをトレーニングするために容易に利用できるビデオキャプションのみを利用する自然言語ベースのビデオシーングラフ生成(NL-VSGG)フレームワークを提案します。
NL-VSGGは、2つの主要なモジュールで構成されています。一時性認識キャプションセグメンテーション(TCS)モジュールとアクション持続時間の変動性キャプションフレームアライメント(ADV)モジュールです。
具体的には、TCSはビデオキャプションを大規模な言語モデル(LLM)に基づいて時間的順序で複数の文にセグメントし、ADVは、アクション期間の変動性を考慮して、各セグメント化された文を適切なフレームに合わせます。
私たちのアプローチは、アクションゲノムデータセットにWS-IMGSGGパイプラインをVIDSGGに単純に適用することと比較して、パフォーマンスの大幅な向上につながります。
ビデオキャプションを弱い監督として利用することのさらなる利点として、NL-VSGGがトレーニングしたVIDSGGモデルがトレーニングデータに含まれていないより広範なアクションクラスを予測できることを示しています。
。
要約(オリジナル)
Existing Video Scene Graph Generation (VidSGG) studies are trained in a fully supervised manner, which requires all frames in a video to be annotated, thereby incurring high annotation cost compared to Image Scene Graph Generation (ImgSGG). Although the annotation cost of VidSGG can be alleviated by adopting a weakly supervised approach commonly used for ImgSGG (WS-ImgSGG) that uses image captions, there are two key reasons that hinder such a naive adoption: 1) Temporality within video captions, i.e., unlike image captions, video captions include temporal markers (e.g., before, while, then, after) that indicate time related details, and 2) Variability in action duration, i.e., unlike human actions in image captions, human actions in video captions unfold over varying duration. To address these issues, we propose a Natural Language-based Video Scene Graph Generation (NL-VSGG) framework that only utilizes the readily available video captions for training a VidSGG model. NL-VSGG consists of two key modules: Temporality-aware Caption Segmentation (TCS) module and Action Duration Variability-aware caption-frame alignment (ADV) module. Specifically, TCS segments the video captions into multiple sentences in a temporal order based on a Large Language Model (LLM), and ADV aligns each segmented sentence with appropriate frames considering the variability in action duration. Our approach leads to a significant enhancement in performance compared to simply applying the WS-ImgSGG pipeline to VidSGG on the Action Genome dataset. As a further benefit of utilizing the video captions as weak supervision, we show that the VidSGG model trained by NL-VSGG is able to predict a broader range of action classes that are not included in the training data, which makes our framework practical in reality.
arxiv情報
著者 | Kibum Kim,Kanghoon Yoon,Yeonjun In,Jaehyeong Jeon,Jinyoung Moon,Donghyun Kim,Chanyoung Park |
発行日 | 2025-02-21 10:42:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google