On Robustness in Multimodal Learning

要約

タイトル:多様な学習における頑健性に関するもの

要約:
– 多様な入力モダリティ(ビデオ、音声、テキストなど)を対象とした学習である多様な学習において、トレーニングと展開時にモダリティのタイプが異なるとどのようにモデルが振る舞うかに興味を持っています。
– マルチモーダルな頑健性フレームワークを提供して、一般的なマルチモーダル表現学習方法のシステム的な分析を行っています。
– さらに、これらのアプローチの頑健性の問題点を特定し、2つの介入技術を提案して、AudioSet、Kinetics-400、ImageNet-Captionsの3つのデータセットで1.5〜4倍の頑健性向上を実現しました。
– 最後に、これらの介入技術が、存在する場合は追加のモダリティをより効果的に利用して、AudioSet 20Kで44.2 mAPの競争力のある結果を実現することを示します。

要約(オリジナル)

Multimodal learning is defined as learning over multiple heterogeneous input modalities such as video, audio, and text. In this work, we are concerned with understanding how models behave as the type of modalities differ between training and deployment, a situation that naturally arises in many applications of multimodal learning to hardware platforms. We present a multimodal robustness framework to provide a systematic analysis of common multimodal representation learning methods. Further, we identify robustness short-comings of these approaches and propose two intervention techniques leading to $1.5\times$-$4\times$ robustness improvements on three datasets, AudioSet, Kinetics-400 and ImageNet-Captions. Finally, we demonstrate that these interventions better utilize additional modalities, if present, to achieve competitive results of $44.2$ mAP on AudioSet 20K.

arxiv情報

著者 randon McKinzie,Joseph Cheng,Vaishaal Shankar,Yinfei Yang,Jonathon Shlens,Alexander Toshev
発行日 2023-04-10 05:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク