(Un)likelihood Training for Interpretable Embedding

要約

クロスモーダル表現学習は、テキストとビジュアル データの間の意味論的なギャップを埋めるための新しい標準になっています。
ただし、連続潜在空間でのモダリティに依存しない表現の学習は、ブラックボックスのデータ駆動型トレーニング プロセスとして扱われることがよくあります。
表現学習の有効性はトレーニング データの品質と規模に大きく依存することはよく知られています。
ビデオ表現の学習では、トレーニング用にビデオ コンテンツの全領域に注釈を付けるラベルの完全なセットを用意することは、不可能ではないにしても、非常に困難です。
これらの問題、ブラックボックストレーニングとデータセットバイアスにより、説明不可能で予測不可能な結果が生じるため、表現学習をビデオ理解に導入することが実質的に困難になります。
この論文では、トレーニングにおけるラベルのスパース性の問題に対処しながら、埋め込みの背後にあるセマンティクスを展開するための 2 つの新しいトレーニング目標、尤度関数と尤度関数を提案します。
尤度トレーニングは、トレーニング ラベルを超えて埋め込みのセマンティクスを解釈することを目的としていますが、尤度トレーニングでは、正規化のための事前知識を活用して、意味論的に一貫した解釈を確保します。
両方のトレーニング目標を備え、解釈可能なクロスモーダル表現を学習する新しいエンコーダ/デコーダ ネットワークがアドホック ビデオ検索用に提案されています。
TRECVid および MSR-VTT データセットに関する広範な実験により、提案されたネットワークがいくつかの最先端の検索モデルよりも統計的に有意なパフォーマンスマージンで優れていることが示されています。

要約(オリジナル)

Cross-modal representation learning has become a new normal for bridging the semantic gap between text and visual data. Learning modality agnostic representations in a continuous latent space, however, is often treated as a black-box data-driven training process. It is well-known that the effectiveness of representation learning depends heavily on the quality and scale of training data. For video representation learning, having a complete set of labels that annotate the full spectrum of video content for training is highly difficult if not impossible. These issues, black-box training and dataset bias, make representation learning practically challenging to be deployed for video understanding due to unexplainable and unpredictable results. In this paper, we propose two novel training objectives, likelihood and unlikelihood functions, to unroll semantics behind embeddings while addressing the label sparsity problem in training. The likelihood training aims to interpret semantics of embeddings beyond training labels, while the unlikelihood training leverages prior knowledge for regularization to ensure semantically coherent interpretation. With both training objectives, a new encoder-decoder network, which learns interpretable cross-modal representation, is proposed for ad-hoc video search. Extensive experiments on TRECVid and MSR-VTT datasets show the proposed network outperforms several state-of-the-art retrieval models with a statistically significant performance margin.

arxiv情報

著者 Jiaxin Wu,Chong-Wah Ngo,Wing-Kwong Chan,Zhijian Hou
発行日 2023-11-10 10:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク