LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

要約

マルチモーダルディープラーニングは、テキスト、画像、音声、ビデオなどの多様な情報ソースを統合することで意思決定を強化します。
信頼できるマルチモーダルなアプローチを開発するには、不確実性がこれらのモデルにどのような影響を与えるかを理解することが不可欠です。
私たちは、不確実でマルチモーダルなデータから学習するために、50 クラスの音声、画像、テキスト データを特徴とする独自のベンチマーク データセットである LUMA を提案します。
これは、3 つの音声コーパスから抽出された音声サンプルと、Gemma-7B 大規模言語モデル (LLM) を使用して生成されたテキスト データを使用して、よく知られた CIFAR 10/100 データセットを拡張します。
LUMA データセットを使用すると、さまざまなタイプや程度の不確実性を制御して注入して、特定の実験やベンチマークの取り組みを達成および調整できます。
LUMA は、データの多様性、各モダリティのノイズ量、分布外サンプルの追加を制御してデータセットの複数のバリアントを生成する機能を含む Python パッケージとしても利用できます。
ベースラインの事前トレーニング済みモデルも、モンテカルロ ドロップアウト、ディープ アンサンブル、信頼性の高い競合マルチビュー学習という 3 つの不確実性定量化手法とともに提供されます。
この包括的なデータセットとそのベンチマーク ツールは、信頼できる堅牢なマルチモーダル ディープ ラーニング アプローチの開発、評価、ベンチマークを促進およびサポートすることを目的としています。
私たちは、LUMA データセットが、ICLR コミュニティが安全性が重要なアプリケーション向けに、より信頼性が高く堅牢な機械学習アプローチを設計するのに役立つと期待しています。

要約(オリジナル)

Multimodal Deep Learning enhances decision-making by integrating diverse information sources, such as texts, images, audio, and videos. To develop trustworthy multimodal approaches, it is essential to understand how uncertainty impacts these models. We propose LUMA, a unique benchmark dataset, featuring audio, image, and textual data from 50 classes, for learning from uncertain and multimodal data. It extends the well-known CIFAR 10/100 dataset with audio samples extracted from three audio corpora, and text data generated using the Gemma-7B Large Language Model (LLM). The LUMA dataset enables the controlled injection of varying types and degrees of uncertainty to achieve and tailor specific experiments and benchmarking initiatives. LUMA is also available as a Python package including the functions for generating multiple variants of the dataset with controlling the diversity of the data, the amount of noise for each modality, and adding out-of-distribution samples. A baseline pre-trained model is also provided alongside three uncertainty quantification methods: Monte-Carlo Dropout, Deep Ensemble, and Reliable Conflictive Multi-View Learning. This comprehensive dataset and its benchmarking tools are intended to promote and support the development, evaluation, and benchmarking of trustworthy and robust multimodal deep learning approaches. We anticipate that the LUMA dataset will help the ICLR community to design more trustworthy and robust machine learning approaches for safety critical applications.

arxiv情報

著者 Grigor Bezirganyan,Sana Sellami,Laure Berti-Équille,Sébastien Fournier
発行日 2024-10-01 13:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク