ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation

要約

マルチモーダル Federated Learning では、クライアント モダリティの異質性という課題に頻繁に遭遇し、マルチモーダル学習における二次モダリティの望ましくないパフォーマンスにつながります。
これは視聴覚学習で特に一般的であり、音声は認識タスクにおいて弱いモダリティであると想定されることがよくあります。
この課題に対処するために、オーディオビジュアル連合学習モデルからの知識の蒸留を活用してオーディオ モデルのパフォーマンスを向上させる ModalityMirror を導入します。
ModalityMirror には 2 つのフェーズが含まれます。ユニモーダル エンコーダを集約するためのモダリティごとの FL ステージです。
そして、単峰性の学生モデルをトレーニングするための、マルチモダリティ クライアント上のフェデレーテッド ナレッジ蒸留ステージ。
私たちの結果は、ModalityMirror が Harmony などの最先端の FL 手法と比較して、特にビデオ欠落に直面するオーディオビジュアル FL においてオーディオ分類を大幅に改善することを示しています。
私たちのアプローチは、マルチモーダル FL に固有の多様なモダリティ スペクトルを活用する可能性を解き放ちます。

要約(オリジナル)

Multimodal Federated Learning frequently encounters challenges of client modality heterogeneity, leading to undesired performances for secondary modality in multimodal learning. It is particularly prevalent in audiovisual learning, with audio is often assumed to be the weaker modality in recognition tasks. To address this challenge, we introduce ModalityMirror to improve audio model performance by leveraging knowledge distillation from an audiovisual federated learning model. ModalityMirror involves two phases: a modality-wise FL stage to aggregate uni-modal encoders; and a federated knowledge distillation stage on multi-modality clients to train an unimodal student model. Our results demonstrate that ModalityMirror significantly improves the audio classification compared to the state-of-the-art FL methods such as Harmony, particularly in audiovisual FL facing video missing. Our approach unlocks the potential for exploiting the diverse modality spectrum inherent in multi-modal FL.

arxiv情報

著者 Tiantian Feng,Tuo Zhang,Salman Avestimehr,Shrikanth S. Narayanan
発行日 2024-08-28 13:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク