要約
ビデオから時空間シーングラフ(STSG)を学習するための監視されたアプローチは、STSG解剖されたビデオに依存しているため、大規模に構築するために労働集約的なビデオに依存しているため、大幅に妨げられています。
代わりに、すぐに利用可能なビデオキャプションを弱い監督として使用することは可能ですか?
この質問に対処するために、ビデオキャプションのみを使用してSTSGジェネレーターをトレーニングできるようにするためのニューロシンボリックフレームワークであるレーザーを提案します。
Laserは、ビデオキャプションから豊富な時空間セマンティック情報を使用して、最初に論理仕様を抽出するために大規模な言語モデルを採用しています。
その後、レーザーは基礎となるSTSGジェネレーターをトレーニングして、予測されたSTSGを仕様に合わせます。
アラインメントアルゴリズムは、微分可能なシンボリック推論を活用し、対照的な、時間的、およびセマンティクス損失の組み合わせを使用することにより、弱い監督の課題を克服します。
全体的なアプローチは、低レベルの知覚モデルを効率的にトレーニングして、ビデオキャプションに準拠するきめの細かいSTSGを抽出します。
そうすることで、退屈な注釈なしでSTSGを学習するための新しい方法論を可能にします。
OpenPVSG、20bn、およびMugenの3つのビデオデータセットでこの方法を評価します。
私たちのアプローチは、完全に監視されたベースラインよりも大幅な改善を示しており、27.78%(+12.65%)の単位述語予測精度と、OpenPVSGで0.42(+0.22)のバイナリリコールを達成しています。
さらに、レーザーは、全体的な述語予測精度の点で、20bnでベースラインを7%、ムゲンで5.2%を超えています。
要約(オリジナル)
Supervised approaches for learning spatio-temporal scene graphs (STSG) from video are greatly hindered due to their reliance on STSG-annotated videos, which are labor-intensive to construct at scale. Is it feasible to instead use readily available video captions as weak supervision? To address this question, we propose LASER, a neuro-symbolic framework to enable training STSG generators using only video captions. LASER employs large language models to first extract logical specifications with rich spatio-temporal semantic information from video captions. LASER then trains the underlying STSG generator to align the predicted STSG with the specification. The alignment algorithm overcomes the challenges of weak supervision by leveraging a differentiable symbolic reasoner and using a combination of contrastive, temporal, and semantics losses. The overall approach efficiently trains low-level perception models to extract a fine-grained STSG that conforms to the video caption. In doing so, it enables a novel methodology for learning STSGs without tedious annotations. We evaluate our method on three video datasets: OpenPVSG, 20BN, and MUGEN. Our approach demonstrates substantial improvements over fully-supervised baselines, achieving a unary predicate prediction accuracy of 27.78% (+12.65%) and a binary recall@5 of 0.42 (+0.22) on OpenPVSG. Additionally, LASER exceeds baselines by 7% on 20BN and 5.2% on MUGEN in terms of overall predicate prediction accuracy.
arxiv情報
著者 | Jiani Huang,Ziyang Li,Mayur Naik,Ser-Nam Lim |
発行日 | 2025-04-22 17:26:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google