MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning

要約

マルチモーダル表現の学習には、複数の異種データ ソースからの情報を統合することが含まれます。
現実世界の堅牢性を確保しながら、十分に研究されていないモダリティやタスクへの進歩を加速するために、20 を超えるコア マルチモーダル アルゴリズムの標準化された実装で構成される公開ツールキットである MultiZoo と、15 のデータセット、10 のモダリティ、20 のデータセットにまたがる大規模なベンチマークである MultiBench をリリースします。
予測タスクと 6 つの研究分野。
これらを組み合わせることで、データの読み込み、実験のセットアップ、モデルの評価を簡素化および標準化する、自動化されたエンドツーエンドの機械学習パイプラインが提供されます。
総合的な評価を可能にするために、(1) 一般化、(2) 時間と空間の複雑さ、(3) モダリティの堅牢性を評価するための包括的な方法論を提供します。
MultiBench は、使いやすさ、アクセシビリティ、再現性を確保しながら、マルチモーダル モデルの機能と制限をより深く理解するための道を開きます。
私たちのツールキットは一般に公開されており、定期的に更新され、コミュニティからの意見を歓迎します。

要約(オリジナル)

Learning multimodal representations involves integrating information from multiple heterogeneous sources of data. In order to accelerate progress towards understudied modalities and tasks while ensuring real-world robustness, we release MultiZoo, a public toolkit consisting of standardized implementations of > 20 core multimodal algorithms and MultiBench, a large-scale benchmark spanning 15 datasets, 10 modalities, 20 prediction tasks, and 6 research areas. Together, these provide an automated end-to-end machine learning pipeline that simplifies and standardizes data loading, experimental setup, and model evaluation. To enable holistic evaluation, we offer a comprehensive methodology to assess (1) generalization, (2) time and space complexity, and (3) modality robustness. MultiBench paves the way towards a better understanding of the capabilities and limitations of multimodal models, while ensuring ease of use, accessibility, and reproducibility. Our toolkits are publicly available, will be regularly updated, and welcome inputs from the community.

arxiv情報

著者 Paul Pu Liang,Yiwei Lyu,Xiang Fan,Arav Agarwal,Yun Cheng,Louis-Philippe Morency,Ruslan Salakhutdinov
発行日 2023-06-28 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク