要約
Vibaを紹介します。これは、Attribution(IBA)の情報ボトルネックをビデオシーケンスに適合させることにより、説明可能なビデオ分類の新しいアプローチです。
ほとんどの従来の説明可能性は画像モデル向けに設計されていますが、IBAフレームワークは、ビデオ分析に使用される時間モデルの説明可能性の必要性に対処しています。
その有効性を実証するために、Vibaをビデオディープファーク検出に適用し、2つのアーキテクチャでテストします。空間機能のXceptionモデルと、光フローを通じてモーションダイナミクスをキャプチャするVGG11ベースのモデルです。
最近のディープファーク生成技術を反映したカスタムデータセットを使用して、IBAを適応させ、関連性と光学フローマップを作成し、操作された領域と運動の矛盾を視覚的に強調表示します。
私たちの結果は、VIBAが時間的および空間的に一貫した説明を生成し、人間の注釈と密接に一致しているため、ビデオ分類、特にディープフェイク検出の解釈可能性を提供します。
要約(オリジナル)
We introduce VIBA, a novel approach for explainable video classification by adapting Information Bottlenecks for Attribution (IBA) to video sequences. While most traditional explainability methods are designed for image models, our IBA framework addresses the need for explainability in temporal models used for video analysis. To demonstrate its effectiveness, we apply VIBA to video deepfake detection, testing it on two architectures: the Xception model for spatial features and a VGG11-based model for capturing motion dynamics through optical flow. Using a custom dataset that reflects recent deepfake generation techniques, we adapt IBA to create relevance and optical flow maps, visually highlighting manipulated regions and motion inconsistencies. Our results show that VIBA generates temporally and spatially consistent explanations, which align closely with human annotations, thus providing interpretability for video classification and particularly for deepfake detection.
arxiv情報
著者 | Veronika Solopova,Lucas Schmidt,Dorothea Kolossa |
発行日 | 2025-01-28 12:19:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google