(Un)likelihood Training for Interpretable Embedding

要約

クロスモーダル表現学習は、テキストデータと視覚データの間の意味的ギャップを埋めるための新しい常套手段となっている。しかし、連続潜在空間におけるモダリティにとらわれない表現の学習は、しばしばブラックボックス的なデータ駆動型の学習過程として扱われる。表現学習の有効性は、学習データの質と規模に大きく依存することはよく知られている。映像表現学習において、映像コンテンツの全領域を注釈するラベルの完全なセットを学習用に用意することは、不可能ではないにしても非常に困難である。これらの問題、すなわちブラックボックス学習とデータセットの偏りは、説明不可能で予測不可能な結果をもたらすため、映像理解のための表現学習を実用化することを困難にしている。本論文では、ラベルの疎密問題に対処しつつ、埋め込みの背後にあるセマンティクスを展開するために、尤度関数と非尤度関数という二つの新しい学習目的を提案する。尤度学習は埋め込みのセマンティクスを学習ラベルを超えて解釈することを目的とし、一方、非尤度学習はセマンティクス的に一貫した解釈を保証するために、事前知識を正則化に活用するものである。この2つの学習目的により、アドホックなビデオ検索のために、解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが提案された。TRECVidとMSR-VTTデータセットに対する広範な実験により、提案ネットワークはいくつかの最新の検索モデルよりも統計的に有意な性能差を持って優れていることが示される。

要約(オリジナル)

Cross-modal representation learning has become a new normal for bridging the semantic gap between text and visual data. Learning modality agnostic representations in a continuous latent space, however, is often treated as a black-box data-driven training process. It is well-known that the effectiveness of representation learning depends heavily on the quality and scale of training data. For video representation learning, having a complete set of labels that annotate the full spectrum of video content for training is highly difficult if not impossible. These issues, black-box training and dataset bias, make representation learning practically challenging to be deployed for video understanding due to unexplainable and unpredictable results. In this paper, we propose two novel training objectives, likelihood and unlikelihood functions, to unroll semantics behind embeddings while addressing the label sparsity problem in training. The likelihood training aims to interpret semantics of embeddings beyond training labels, while the unlikelihood training leverages prior knowledge for regularization to ensure semantically coherent interpretation. With both training objectives, a new encoder-decoder network, which learns interpretable cross-modal representation, is proposed for ad-hoc video search. Extensive experiments on TRECVid and MSR-VTT datasets show the proposed network outperforms several state-of-the-art retrieval models with a statistically significant performance margin.

arxiv情報

著者 Jiaxin Wu,Chong-Wah Ngo,Wing-Kwong Chan,Zhijian Hou
発行日 2022-07-01 09:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク