要約
本稿では、ビデオ要約を多粒度に説明するための統合フレームワークを提案します。
このフレームワークは、フラグメント レベル (どのビデオ フラグメントがサマライザの決定に最も影響を与えたかを示す) と、より詳細なビジュアル オブジェクト レベル (どのビジュアル オブジェクトがサマライザに最も影響を与えたかを強調表示する) の両方で説明を作成するためのメソッドを統合します。
このフレームワークを構築するために、ビデオ要約結果をフラグメントレベルで説明するためのモデルに依存しない摂動ベースのアプローチの使用を調査し、ビデオの結果を組み合わせる新しい方法を導入することにより、この分野での以前の研究を拡張します。
オブジェクトレベルの説明を生成するために摂動ベースの説明アプローチを適応させたパノプティックセグメンテーション。
開発されたフレームワークのパフォーマンスは、最先端の要約手法とビデオ要約のベンチマーク用の 2 つのデータセットを使用して評価されます。
実施された定量的および定性的評価の結果は、要約者にとって最も影響力のあるビデオの断片と視覚的オブジェクトを特定し、要約の出力についての包括的な視覚ベースの説明を提供するフレームワークの能力を実証しています。
プロセス。
要約(オリジナル)
In this paper, we propose an integrated framework for multi-granular explanation of video summarization. This framework integrates methods for producing explanations both at the fragment level (indicating which video fragments influenced the most the decisions of the summarizer) and the more fine-grained visual object level (highlighting which visual objects were the most influential for the summarizer). To build this framework, we extend our previous work on this field, by investigating the use of a model-agnostic, perturbation-based approach for fragment-level explanation of the video summarization results, and introducing a new method that combines the results of video panoptic segmentation with an adaptation of a perturbation-based explanation approach to produce object-level explanations. The performance of the developed framework is evaluated using a state-of-the-art summarization method and two datasets for benchmarking video summarization. The findings of the conducted quantitative and qualitative evaluations demonstrate the ability of our framework to spot the most and least influential fragments and visual objects of the video for the summarizer, and to provide a comprehensive set of visual-based explanations about the output of the summarization process.
arxiv情報
著者 | Konstantinos Tsigos,Evlampios Apostolidis,Vasileios Mezaris |
発行日 | 2024-05-16 13:25:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google