DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-datasets

要約

汎用検出器の構築では、データセットの大規模な混合に対してモデルを最も効果的にトレーニングするにはどうすればよいかという重要な疑問が生じます。
答えは、データセット固有の特徴を学習し、その知識を統合し、これらすべてを単一のモデルで実行することにあります。
以前の方法では、共通のバックボーン上に個別の検出ヘッドを配置することでこれを実現していましたが、パラメータが大幅に増加しました。
この研究では、ソリューションとして専門家の混合を紹介し、MoE が単なるスケーラビリティ ツール以上のものであることを強調しています。
私たちは、各データセット トークンをマップされたエキスパートにルーティングする方法を学習することで、データセットの「エキスパート」になるようエキスパートをトレーニングする、データセット対応の専門家混合、DAMEX を提案します。
Universal Object-Detection Benchmark の実験では、平均 +10.2 AP スコアで既存の最先端技術を上回り、平均 +2.0 AP スコアで非 MoE ベースラインより改善していることが示されています。
また、(1) 可用性が限られている、(2) 異なるドメイン、および (3) 分岐したラベル セットを備えたデータセットを混合する際にも、一貫したゲインが観察されます。
さらに、DAMEX が専門家の表現の崩壊に対して堅牢であることを定性的に示します。

要約(オリジナル)

Construction of a universal detector poses a crucial question: How can we most effectively train a model on a large mixture of datasets? The answer lies in learning dataset-specific features and ensembling their knowledge but do all this in a single model. Previous methods achieve this by having separate detection heads on a common backbone but that results in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose Dataset-Aware Mixture-of-Experts, DAMEX where we train the experts to become an `expert’ of a dataset by learning to route each dataset tokens to its mapped expert. Experiments on Universal Object-Detection Benchmark show that we outperform the existing state-of-the-art by average +10.2 AP score and improve over our non-MoE baseline by average +2.0 AP score. We also observe consistent gains while mixing datasets with (1) limited availability, (2) disparate domains and (3) divergent label sets. Further, we qualitatively show that DAMEX is robust against expert representation collapse.

arxiv情報

著者 Yash Jain,Harkirat Behl,Zsolt Kira,Vibhav Vineet
発行日 2023-11-08 18:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク