要約
タイトル:特徴空間でのマルチモーダルデータ拡張の学習
要約:
– 複数のモダリティ(テキスト、音声、映像など)から同時に学習できることは、知的システムの特徴の一つである。しかし、マルチモーダルデータを利用したニューラルネットワークの設計には進展があっても、現在までに単一のモダリティのタスクである画像分類などに限られているため、データ拡張の大成功は限られている。
– 例えば、キャプションが翻訳などの標準的な拡張が適用された後に画像の良い説明ではなくなるなど、各モダリティを拡張するのは特に困難である。また、特定のモダリティに合わせたものでない合理的な変換を指定することも困難である。
– 本研究では、お互いのモダリティや関係に拘束がない特徴空間でマルチモーダルデータを自動的に拡張することを学習する簡単な方法であるLeMDA(Learning Multimodal Data Augmentation)を紹介する。
– LeMDAは、(1)マルチモーダル深層学習アーキテクチャの性能を大幅に向上させることができ、(2)以前考慮されていなかったモダリティの組み合わせに適用でき、(3)画像、テキスト、表形式のデータを含む幅広いアプリケーションで最先端の結果を達成できることを示した。
要約(オリジナル)
The ability to jointly learn from multiple modalities, such as text, audio, and visual data, is a defining feature of intelligent systems. While there have been promising advances in designing neural networks to harness multimodal data, the enormous success of data augmentation currently remains limited to single-modality tasks like image classification. Indeed, it is particularly difficult to augment each modality while preserving the overall semantic structure of the data; for example, a caption may no longer be a good description of an image after standard augmentations have been applied, such as translation. Moreover, it is challenging to specify reasonable transformations that are not tailored to a particular modality. In this paper, we introduce LeMDA, Learning Multimodal Data Augmentation, an easy-to-use method that automatically learns to jointly augment multimodal data in feature space, with no constraints on the identities of the modalities or the relationship between modalities. We show that LeMDA can (1) profoundly improve the performance of multimodal deep learning architectures, (2) apply to combinations of modalities that have not been previously considered, and (3) achieve state-of-the-art results on a wide range of applications comprised of image, text, and tabular data.
arxiv情報
著者 | Zichang Liu,Zhiqiang Tang,Xingjian Shi,Aston Zhang,Mu Li,Anshumali Shrivastava,Andrew Gordon Wilson |
発行日 | 2023-04-24 14:48:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI