要約
マルチモーダル変分オートエンコーダ (VAE) は、複数のモダリティを統合表現に統合できるため、データの分類と生成の両方に有望なツールとして機能するため、ここ数年集中的な研究の対象となってきました。
マルチモーダル VAE 学習に対するいくつかのアプローチがこれまでに提案されていますが、それらの比較と評価にはかなり一貫性がありません。
理由の 1 つは、モデルが実装レベルで異なることです。もう 1 つの問題は、これらのケースで一般的に使用されるデータセットが、当初はマルチモーダル生成モデルを評価するように設計されていないことです。
この文書では、前述の両方の問題について説明します。
まず、体系的なマルチモーダル VAE トレーニングと比較のためのツールキットを提案します。
このツールキットは現在、4 つの既存のマルチモーダル VAE と 6 つの一般的に使用されるベンチマーク データセット、および新しいモデルまたはデータセットを簡単に追加する方法に関する指示で構成されています。
2 番目に、複数の難易度にわたって共同生成機能と世代間機能を包括的に評価するように設計された、もつれの解けた二峰性データセットを提示します。
実装された最先端のモデルを比較することで、データセットの有用性を実証します。
要約(オリジナル)
Multimodal Variational Autoencoders (VAEs) have been the subject of intense research in the past years as they can integrate multiple modalities into a joint representation and can thus serve as a promising tool for both data classification and generation. Several approaches toward multimodal VAE learning have been proposed so far, their comparison and evaluation have however been rather inconsistent. One reason is that the models differ at the implementation level, another problem is that the datasets commonly used in these cases were not initially designed to evaluate multimodal generative models. This paper addresses both mentioned issues. First, we propose a toolkit for systematic multimodal VAE training and comparison. The toolkit currently comprises 4 existing multimodal VAEs and 6 commonly used benchmark datasets along with instructions on how to easily add a new model or a dataset. Second, we present a disentangled bimodal dataset designed to comprehensively evaluate the joint generation and cross-generation capabilities across multiple difficulty levels. We demonstrate the utility of our dataset by comparing the implemented state-of-the-art models.
arxiv情報
著者 | Gabriela Sejnova,Michal Vavrecka,Karla Stepanova |
発行日 | 2023-11-24 14:00:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google