Single-branch Network for Multimodal Training

要約

ソーシャル メディア プラットフォームの急速な成長に伴い、ユーザーは音声、画像、テキストを含む何十億ものマルチメディア投稿を共有しています。
研究者は、このようなマルチメディア データを処理して、クロスモーダル検索、照合、検証などの困難なマルチモーダル タスクを解決できる自律システムの構築に注力してきました。
既存の作品は、別々のネットワークを使用して各モダリティの埋め込みを抽出し、それらの間のギャップを埋めます。
分岐ネットワークのモジュラー構造は、多数のマルチモーダル アプリケーションを作成する際の基本であり、複数のモダリティを処理するための事実上の標準となっています。
対照的に、ネットワークを変更せずに、単峰性タスクと多峰性タスクの識別表現を学習できる、新しい単一分岐ネットワークを提案します。
シングル ブランチ ネットワークの重要な機能は、パフォーマンスを犠牲にすることなく、単一または複数のモダリティを使用してトレーニングできることです。
クロスモーダル検証とさまざまな損失定式化によるマッチングタスクのために、挑戦的なマルチモーダル問題(顔と声の関連付け)で提案された単一ブランチネットワークを評価しました。
実験結果は、幅広い実験において、提案された単一分岐ネットワークが既存の方法よりも優れていることを示しています。
コード: https://github.com/msaadsaeed/SBNet

要約(オリジナル)

With the rapid growth of social media platforms, users are sharing billions of multimedia posts containing audio, images, and text. Researchers have focused on building autonomous systems capable of processing such multimedia data to solve challenging multimodal tasks including cross-modal retrieval, matching, and verification. Existing works use separate networks to extract embeddings of each modality to bridge the gap between them. The modular structure of their branched networks is fundamental in creating numerous multimodal applications and has become a defacto standard to handle multiple modalities. In contrast, we propose a novel single-branch network capable of learning discriminative representation of unimodal as well as multimodal tasks without changing the network. An important feature of our single-branch network is that it can be trained either using single or multiple modalities without sacrificing performance. We evaluated our proposed single-branch network on the challenging multimodal problem (face-voice association) for cross-modal verification and matching tasks with various loss formulations. Experimental results demonstrate the superiority of our proposed single-branch network over the existing methods in a wide range of experiments. Code: https://github.com/msaadsaeed/SBNet

arxiv情報

著者 Muhammad Saad Saeed,Shah Nawaz,Muhammad Haris Khan,Muhammad Zaigham Zaheer,Karthik Nandakumar,Muhammad Haroon Yousaf,Arif Mahmood
発行日 2023-03-10 18:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク