要約
アクション品質評価(AQA)は、アクションがどれだけうまく実行されるかを評価することです。
以前の作品は、オーディオ情報を無視して、視覚情報の使用のみによってモデリングを実行します。
AQAは視覚情報に大きく依存していますが、オーディオは、特にフィギュアスケートやリズミカルな体操などのバックグラウンドミュージックを備えたスポーツの場合、スコア回帰精度を改善するための有用な補完的な情報であると主張します。
AQA、つまりRGB、光フロー、オーディオ情報のマルチモーダル情報を活用するために、モダリティ固有の情報と混合モダリティ情報を個別にモデル化するプログレッシブ適応マルチモーダル融合ネットワーク(PAMFN)を提案します。
私たちのモデルは、モダリティ固有の情報を独立して探求する3つのモダリティ固有のブランチと、モダリティ固有の分岐からモダリティ固有の情報を徐々に集約する混合モダリティブランチで構成されています。
モダリティ固有のブランチと混合モダリティブランチの間の橋渡しを構築するために、3つの新しいモジュールが提案されています。
まず、モダリティ固有の機能デコーダーモジュールは、モダリティ固有の情報を混合モダリティブランチに選択的に転送するように設計されています。
第二に、モダリティ固有の情報間の相互作用を調査するとき、不変のマルチモーダル融合ポリシーを使用すると、アクションのさまざまな部分の潜在的な多様性を考慮に入れるために、最適ではない結果につながる可能性があると主張します。
したがって、アクションのさまざまな部分で適応型マルチモーダル融合ポリシーを学習するための適応融合モジュールが提案されています。
このモジュールは、さまざまなマルチモーダル融合戦略を探索するためのいくつかのフュージョンネットと、どのフュージョンネットが有効になっているかを決定するためのポリシネットで構成されています。
第三に、Cross-Modal機能デコーダーと呼ばれるモジュールは、適応融合モジュールによって生成されたクロスモーダル機能を混合モダリティブランチに転送するように設計されています。
要約(オリジナル)
Action quality assessment (AQA) is to assess how well an action is performed. Previous works perform modelling by only the use of visual information, ignoring audio information. We argue that although AQA is highly dependent on visual information, the audio is useful complementary information for improving the score regression accuracy, especially for sports with background music, such as figure skating and rhythmic gymnastics. To leverage multimodal information for AQA, i.e., RGB, optical flow and audio information, we propose a Progressive Adaptive Multimodal Fusion Network (PAMFN) that separately models modality-specific information and mixed-modality information. Our model consists of with three modality-specific branches that independently explore modality-specific information and a mixed-modality branch that progressively aggregates the modality-specific information from the modality-specific branches. To build the bridge between modality-specific branches and the mixed-modality branch, three novel modules are proposed. First, a Modality-specific Feature Decoder module is designed to selectively transfer modality-specific information to the mixed-modality branch. Second, when exploring the interaction between modality-specific information, we argue that using an invariant multimodal fusion policy may lead to suboptimal results, so as to take the potential diversity in different parts of an action into consideration. Therefore, an Adaptive Fusion Module is proposed to learn adaptive multimodal fusion policies in different parts of an action. This module consists of several FusionNets for exploring different multimodal fusion strategies and a PolicyNet for deciding which FusionNets are enabled. Third, a module called Cross-modal Feature Decoder is designed to transfer cross-modal features generated by Adaptive Fusion Module to the mixed-modality branch.
arxiv情報
著者 | Ling-An Zeng,Wei-Shi Zheng |
発行日 | 2025-03-05 14:02:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google