MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning


この論文では、マルチモーダル学習に合わせたサンプリングベースのミキサー アーキテクチャ検索のための新しいフレームワークである MixMAS を紹介します。
私たちのアプローチは、特定のマルチモーダル機械学習 (MML) タスクに最適な MLP ベースのアーキテクチャを自動的に選択します。
具体的には、MixMAS はサンプリングベースのマイクロベンチマーク戦略を利用して、モダリティ固有のエンコーダー、融合機能、融合ネットワークのさまざまな組み合わせを調査し、タスクのパフォーマンス指標を最もよく満たすアーキテクチャを系統的に特定します。


Choosing a suitable deep learning architecture for multimodal data fusion is a challenging task, as it requires the effective integration and processing of diverse data types, each with distinct structures and characteristics. In this paper, we introduce MixMAS, a novel framework for sampling-based mixer architecture search tailored to multimodal learning. Our approach automatically selects the optimal MLP-based architecture for a given multimodal machine learning (MML) task. Specifically, MixMAS utilizes a sampling-based micro-benchmarking strategy to explore various combinations of modality-specific encoders, fusion functions, and fusion networks, systematically identifying the architecture that best meets the task’s performance metrics.


著者 Abdelmadjid Chergui,Grigor Bezirganyan,Sana Sellami,Laure Berti-Équille,Sébastien Fournier
発行日 2024-12-24 13:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク