Learning Multimodal Data Augmentation in Feature Space

要約

テキスト、オーディオ、ビジュアル データなどの複数のモダリティから共同で学習する機能は、インテリジェント システムの決定的な機能です。
マルチモーダル データを利用するニューラル ネットワークの設計には有望な進歩がありましたが、現在のところ、データ拡張の大きな成功は画像分類などの単一モダリティ タスクに限られています。
実際、データの全体的なセマンティック構造を維持しながら、各モダリティを拡張することは特に困難です。
たとえば、キャプションは、翻訳などの標準的な拡張が適用された後は、画像の適切な説明ではなくなる可能性があります。
さらに、特定のモダリティに合わせて調整されていない合理的な変換を指定することは困難です。
このホワイト ペーパーでは、モダリティのアイデンティティやモダリティ間の関係に制約を課すことなく、特徴空間内のマルチモーダル データを共同で増強することを自動的に学習する使いやすい方法である LeMDA (Learning Multimodal Data Augmentation) を紹介します。
LeMDA が (1) マルチモーダル ディープ ラーニング アーキテクチャのパフォーマンスを大幅に改善し、(2) これまで考慮されていなかったモダリティの組み合わせに適用し、(3) 広範囲で最先端の結果を達成できることを示します。
画像、テキスト、および表形式のデータで構成されるアプリケーション。

要約(オリジナル)

The ability to jointly learn from multiple modalities, such as text, audio, and visual data, is a defining feature of intelligent systems. While there have been promising advances in designing neural networks to harness multimodal data, the enormous success of data augmentation currently remains limited to single-modality tasks like image classification. Indeed, it is particularly difficult to augment each modality while preserving the overall semantic structure of the data; for example, a caption may no longer be a good description of an image after standard augmentations have been applied, such as translation. Moreover, it is challenging to specify reasonable transformations that are not tailored to a particular modality. In this paper, we introduce LeMDA, Learning Multimodal Data Augmentation, an easy-to-use method that automatically learns to jointly augment multimodal data in feature space, with no constraints on the identities of the modalities or the relationship between modalities. We show that LeMDA can (1) profoundly improve the performance of multimodal deep learning architectures, (2) apply to combinations of modalities that have not been previously considered, and (3) achieve state-of-the-art results on a wide range of applications comprised of image, text, and tabular data.

arxiv情報

著者 Zichang Liu,Zhiqiang Tang,Xingjian Shi,Aston Zhang,Mu Li,Anshumali Shrivastava,Andrew Gordon Wilson
発行日 2022-12-29 20:39:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク