要約
タイトル:多様な入力モダリティにおけるロバスト性について
要約:
– Multipodal learningとは、ビデオ、オーディオ、テキストなどの多様な入力方法に関する学習です。
– この研究では、多様な入力方法の種類が学習とデプロイメントの間で異なる場合に、モデルがどのように振る舞うかを理解することに関心がありました。
– 多数のハードウェアプラットフォームにおける多様な学習の多くのアプリケーションで自然に発生する状況です。
– 我々は、共通の多様な表現学習方法の系統的な分析を提供する多様なロバスト性フレームワークを提示します。
– さらに、これらアプローチのロバスト性の短所を特定し、3つのデータセット、AudioSet、Kinetics-400、ImageNet-Captionsで1.5倍から4倍のロバスト性向上をもたらす2つの介入技術を提案します。
– 最後に、これらの介入技術が、AudioSet 20Kにおける44.2 mAPの競争力のある結果を達成するために、存在する場合に追加の入力方法をより良く利用することを実証します。
要約(オリジナル)
Multimodal learning is defined as learning over multiple heterogeneous input modalities such as video, audio, and text. In this work, we are concerned with understanding how models behave as the type of modalities differ between training and deployment, a situation that naturally arises in many applications of multimodal learning to hardware platforms. We present a multimodal robustness framework to provide a systematic analysis of common multimodal representation learning methods. Further, we identify robustness short-comings of these approaches and propose two intervention techniques leading to $1.5\times$-$4\times$ robustness improvements on three datasets, AudioSet, Kinetics-400 and ImageNet-Captions. Finally, we demonstrate that these interventions better utilize additional modalities, if present, to achieve competitive results of $44.2$ mAP on AudioSet 20K.
arxiv情報
著者 | Brandon McKinzie,Joseph Cheng,Vaishaal Shankar,Yinfei Yang,Jonathon Shlens,Alexander Toshev |
発行日 | 2023-04-11 01:23:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI