要約
本稿では、映像の変換表現における概念に基づく解釈可能性の問題を研究する。具体的には、自動的に発見されるハイレベルな時空間概念に基づいて、動画変換器の意思決定プロセスを説明することを目指す。概念に基づく解釈可能性に関する先行研究は、画像レベルのタスクのみに集中している。それに比べ、動画モデルは時間的な次元を扱うため、複雑さが増し、時間経過に伴う動的な概念の識別に課題がある。本研究では、最初のVideo Transformer Concept Discovery (VTCD)アルゴリズムを導入することで、これらの課題に体系的に対処する。この目的のために、我々は教師無しでビデオ変換表現の単位である概念を同定し、モデルの出力に対する重要度をランク付けする効率的なアプローチを提案する。得られた概念は非常に解釈しやすく、非構造化ビデオモデルにおける時空間推論メカニズムやオブジェクト中心表現を明らかにする。この分析を、教師あり表現と自己教師あり表現の多様な集合に対して共同で行うことで、これらのメカニズムのいくつかは、ビデオ変換器において普遍的であることを発見する。最後に、VTCDがきめ細かな行動認識やビデオオブジェクトのセグメンテーションに利用できることを示す。
要約(オリジナル)
This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations – concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we show that VTCD can be used for fine-grained action recognition and video object segmentation.
arxiv情報
| 著者 | Matthew Kowal,Achal Dave,Rares Ambrus,Adrien Gaidon,Konstantinos G. Derpanis,Pavel Tokmakov |
| 発行日 | 2024-04-02 18:54:50+00:00 |
| arxivサイト | arxiv_id(pdf) |