要約
私たちは、ペアになっていないマルチビュー ビデオ学習における困難なシナリオに関心を持っています。
この場合、モデルは包括的なマルチビュー表現を学習することを目的としていますが、ビュー間の意味論的情報は変化を示します。
我々は、この不対マルチビュー学習の問題に取り組むために、セマンティクスベースの不対マルチビュー学習 (SUM-L) を提案します。
重要なアイデアは、ビデオのセマンティック情報を活用して、ビュー間の疑似ペアを構築し、ビュー不変の位置合わせを行うことです。
マルチビュー学習のデータ効率を促進するために、一人称ビデオと三人称ビデオのビデオとテキストの位置合わせをさらに実行し、意味論的な知識を最大限に活用してビデオ表現を改善します。
複数のベンチマーク データセットに対する広範な実験により、フレームワークの有効性が検証されます。
また、私たちの方法は、典型的なペアまたはペアになっていないマルチモーダルまたはマルチビュー学習よりも困難なシナリオの下で、複数の既存のビュー調整方法よりも優れたパフォーマンスを発揮します。
コードは https://github.com/wqtwjt1996/SUM-L で入手できます。
要約(オリジナル)
We are concerned with a challenging scenario in unpaired multiview video learning. In this case, the model aims to learn comprehensive multiview representations while the cross-view semantic information exhibits variations. We propose Semantics-based Unpaired Multiview Learning (SUM-L) to tackle this unpaired multiview learning problem. The key idea is to build cross-view pseudo-pairs and do view-invariant alignment by leveraging the semantic information of videos. To facilitate the data efficiency of multiview learning, we further perform video-text alignment for first-person and third-person videos, to fully leverage the semantic knowledge to improve video representations. Extensive experiments on multiple benchmark datasets verify the effectiveness of our framework. Our method also outperforms multiple existing view-alignment methods, under the more challenging scenario than typical paired or unpaired multimodal or multiview learning. Our code is available at https://github.com/wqtwjt1996/SUM-L.
arxiv情報
著者 | Qitong Wang,Long Zhao,Liangzhe Yuan,Ting Liu,Xi Peng |
発行日 | 2023-08-23 16:16:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google