要約
マルチモーダルデータ融合に適した深層学習アーキテクチャを選択することは、それぞれが異なる構造と特性を持つ多様なデータタイプの効果的な統合と処理を必要とするため、困難な作業です。
この論文では、マルチモーダル学習に合わせたサンプリングベースのミキサー アーキテクチャ検索のための新しいフレームワークである MixMAS を紹介します。
私たちのアプローチは、特定のマルチモーダル機械学習 (MML) タスクに最適な MLP ベースのアーキテクチャを自動的に選択します。
具体的には、MixMAS はサンプリングベースのマイクロベンチマーク戦略を利用して、モダリティ固有のエンコーダー、融合機能、融合ネットワークのさまざまな組み合わせを調査し、タスクのパフォーマンス指標を最もよく満たすアーキテクチャを系統的に特定します。
要約(オリジナル)
Choosing a suitable deep learning architecture for multimodal data fusion is a challenging task, as it requires the effective integration and processing of diverse data types, each with distinct structures and characteristics. In this paper, we introduce MixMAS, a novel framework for sampling-based mixer architecture search tailored to multimodal learning. Our approach automatically selects the optimal MLP-based architecture for a given multimodal machine learning (MML) task. Specifically, MixMAS utilizes a sampling-based micro-benchmarking strategy to explore various combinations of modality-specific encoders, fusion functions, and fusion networks, systematically identifying the architecture that best meets the task’s performance metrics.
arxiv情報
著者 | Abdelmadjid Chergui,Grigor Bezirganyan,Sana Sellami,Laure Berti-Équille,Sébastien Fournier |
発行日 | 2024-12-24 13:55:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google