要約
長期アクション品質評価 (AQA) は、ビデオ内のアクティビティの実行を評価します。
ただし、現在の AQA 手法では通常、クリップの特徴を平均することで単一のスコアを生成し、個々のクリップの詳細な意味論的な意味が欠けているため、長さによってきめの細かい解釈が困難になります。
長時間にわたるビデオでは、アクションの複雑さと多様性によりさらなる困難が生じ、解釈可能性の課題がさらに悪化します。
クエリベースのトランスフォーマー ネットワークは有望な長期モデリング機能を提供しますが、AQA での解釈可能性は、出力の低下を防ぐためにモデルが自己注意層をスキップする時間スキッピングと呼ばれる現象のせいで、依然として満足のいくものではありません。
これに対処するために、パフォーマンスと解釈性を向上させるための注意損失関数とクエリ初期化方法を提案します。
さらに、人間の判断で観察されるスコアパターンを近似し、従来の単一スコア回帰を置き換えるように設計された重みスコア回帰モジュールを導入し、解釈可能性の合理性を向上させます。
私たちのアプローチは、3 つの実際の長期 AQA ベンチマークで最先端の結果を達成します。
コードは https://github.com/dx199771/Interpretability-AQA から入手できます。
要約(オリジナル)
Long-term Action Quality Assessment (AQA) evaluates the execution of activities in videos. However, the length presents challenges in fine-grained interpretability, with current AQA methods typically producing a single score by averaging clip features, lacking detailed semantic meanings of individual clips. Long-term videos pose additional difficulty due to the complexity and diversity of actions, exacerbating interpretability challenges. While query-based transformer networks offer promising long-term modeling capabilities, their interpretability in AQA remains unsatisfactory due to a phenomenon we term Temporal Skipping, where the model skips self-attention layers to prevent output degradation. To address this, we propose an attention loss function and a query initialization method to enhance performance and interpretability. Additionally, we introduce a weight-score regression module designed to approximate the scoring patterns observed in human judgments and replace conventional single-score regression, improving the rationality of interpretability. Our approach achieves state-of-the-art results on three real-world, long-term AQA benchmarks. Our code is available at: https://github.com/dx199771/Interpretability-AQA
arxiv情報
著者 | Xu Dong,Xinran Liu,Wanqing Li,Anthony Adeyemi-Ejeye,Andrew Gilbert |
発行日 | 2024-08-21 15:09:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google