Single-branch Network for Multimodal Training


ソーシャル メディア プラットフォームの急速な成長に伴い、ユーザーは音声、画像、テキストを含む何十億ものマルチメディア投稿を共有しています。
研究者は、このようなマルチメディア データを処理して、クロスモーダル検索、照合、検証などの困難なマルチモーダル タスクを解決できる自律システムの構築に注力してきました。
分岐ネットワークのモジュラー構造は、多数のマルチモーダル アプリケーションを作成する際の基本であり、複数のモダリティを処理するための事実上の標準となっています。
シングル ブランチ ネットワークの重要な機能は、パフォーマンスを犠牲にすることなく、単一または複数のモダリティを使用してトレーニングできることです。


With the rapid growth of social media platforms, users are sharing billions of multimedia posts containing audio, images, and text. Researchers have focused on building autonomous systems capable of processing such multimedia data to solve challenging multimodal tasks including cross-modal retrieval, matching, and verification. Existing works use separate networks to extract embeddings of each modality to bridge the gap between them. The modular structure of their branched networks is fundamental in creating numerous multimodal applications and has become a defacto standard to handle multiple modalities. In contrast, we propose a novel single-branch network capable of learning discriminative representation of unimodal as well as multimodal tasks without changing the network. An important feature of our single-branch network is that it can be trained either using single or multiple modalities without sacrificing performance. We evaluated our proposed single-branch network on the challenging multimodal problem (face-voice association) for cross-modal verification and matching tasks with various loss formulations. Experimental results demonstrate the superiority of our proposed single-branch network over the existing methods in a wide range of experiments. Code:


著者 Muhammad Saad Saeed,Shah Nawaz,Muhammad Haris Khan,Muhammad Zaigham Zaheer,Karthik Nandakumar,Muhammad Haroon Yousaf,Arif Mahmood
発行日 2023-03-10 18:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク