MultiViz: Towards Visualizing and Understanding Multimodal Models

要約

現実世界のアプリケーションに対するマルチモーダル モデルの可能性は、利害関係者がモデルの動作を視覚化し、モデルのデバッグを実行し、機械学習モデルへの信頼を促進できるようにすることを最終目標として、内部メカニズムの視覚化と理解に関する研究に影響を与えました。
ただし、最新のマルチモーダル モデルは通常、ブラック ボックスのニューラル ネットワークであるため、内部の仕組みを理解するのは困難です。
これらのモデルにおけるマルチモーダル相互作用の内部モデリングをどのように視覚化できますか?
私たちの論文は、MultiViz を提案することでこのギャップを埋めることを目指しています。MultiViz は、解釈可能性の問題を 4 つの段階に足場を組んでマルチモーダル モデルの動作を分析する方法です。
-モーダル相互作用: 異なるモダリティが互いにどのように関連するか、(3) マルチモーダル表現: 単一モーダルおよびクロスモーダル相互作用が意思決定レベルの特徴でどのように表現されるか、および (4) マルチモーダル予測: 決定レベルの特徴がどのように構成されて、
予測。
MultiViz は、さまざまなモダリティ、モデル、タスク、および研究分野で動作するように設計されています。
6 つの現実世界のタスクにわたる 8 つのトレーニング済みモデルの実験を通じて、MultiViz の補完的な段階により、ユーザーは (1) モデル予測をシミュレートし、(2) 解釈可能な概念を機能に割り当て、(3) モデルの誤分類に対してエラー分析を実行できることを示します。
、および (4) エラー分析からの洞察を使用してモデルをデバッグします。
MultiViz は公開されており、新しい解釈ツールと指標で定期的に更新され、コミュニティからの入力を歓迎します。

要約(オリジナル)

The promise of multimodal models for real-world applications has inspired research in visualizing and understanding their internal mechanics with the end goal of empowering stakeholders to visualize model behavior, perform model debugging, and promote trust in machine learning models. However, modern multimodal models are typically black-box neural networks, which makes it challenging to understand their internal mechanics. How can we visualize the internal modeling of multimodal interactions in these models? Our paper aims to fill this gap by proposing MultiViz, a method for analyzing the behavior of multimodal models by scaffolding the problem of interpretability into 4 stages: (1) unimodal importance: how each modality contributes towards downstream modeling and prediction, (2) cross-modal interactions: how different modalities relate with each other, (3) multimodal representations: how unimodal and cross-modal interactions are represented in decision-level features, and (4) multimodal prediction: how decision-level features are composed to make a prediction. MultiViz is designed to operate on diverse modalities, models, tasks, and research areas. Through experiments on 8 trained models across 6 real-world tasks, we show that the complementary stages in MultiViz together enable users to (1) simulate model predictions, (2) assign interpretable concepts to features, (3) perform error analysis on model misclassifications, and (4) use insights from error analysis to debug models. MultiViz is publicly available, will be regularly updated with new interpretation tools and metrics, and welcomes inputs from the community.

arxiv情報

著者 Paul Pu Liang,Yiwei Lyu,Gunjan Chhablani,Nihal Jain,Zihao Deng,Xingbo Wang,Louis-Philippe Morency,Ruslan Salakhutdinov
発行日 2023-03-06 19:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク