HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

要約

アクションセグメンテーションは、高レベルのビデオ理解における中心的な課題であり、トリミングされていないビデオをセグメントに分割し、事前定義されたアクションセットからそれぞれのラベルを割り当てることを目指しています。
既存の方法は、主に固定アクションシーケンスを使用した単一人のアクティビティに対処し、マルチパーソンシナリオを見落としています。
この作業では、マルチパーソン設定でのテキスト参照ガイド付きヒューマンアクションセグメンテーションの先駆者であり、テキストの説明がセグメンテーションのターゲット担当者を指定します。
人間のアクションセグメンテーションを参照するための最初のデータセット、つまり133の映画から構築され、33hのビデオデータを含む137の微調整されたアクションを注釈と、この新しいタスクのテキストの説明を紹介するための最初のデータセットを紹介します。
VLMベースの特徴抽出器を使用したRHAS133の既存のアクション認識方法のベンチマークは、ターゲットの人の視覚的な手がかりの限られたパフォーマンスと不十分な集約を明らかにします。
これに対処するために、全体的な特に意識したフーリエ条件付き拡散フレームワーク、すなわちホパディフを提案します。つまり、ホパジフは、新しいクロス入力ゲートの注意XLSTMを活用して、ホリスティックな特別な長距離推論と新しいフーリエ条件を強化して、アクションセグメンテーションの生成を改善するためのより微細なコントロールを導入します。
Hopadiffは、多様な評価設定でRHAS133で最新の結果を達成しています。
このコードは、https://github.com/kpeng9510/hopadiff.gitで入手できます。

要約(オリジナル)

Action segmentation is a core challenge in high-level video understanding, aiming to partition untrimmed videos into segments and assign each a label from a predefined action set. Existing methods primarily address single-person activities with fixed action sequences, overlooking multi-person scenarios. In this work, we pioneer textual reference-guided human action segmentation in multi-person settings, where a textual description specifies the target person for segmentation. We introduce the first dataset for Referring Human Action Segmentation, i.e., RHAS133, built from 133 movies and annotated with 137 fine-grained actions with 33h video data, together with textual descriptions for this new task. Benchmarking existing action recognition methods on RHAS133 using VLM-based feature extractors reveals limited performance and poor aggregation of visual cues for the target person. To address this, we propose a holistic-partial aware Fourier-conditioned diffusion framework, i.e., HopaDIFF, leveraging a novel cross-input gate attentional xLSTM to enhance holistic-partial long-range reasoning and a novel Fourier condition to introduce more fine-grained control to improve the action segmentation generation. HopaDIFF achieves state-of-the-art results on RHAS133 in diverse evaluation settings. The code is available at https://github.com/KPeng9510/HopaDIFF.git.

arxiv情報

著者 Kunyu Peng,Junchao Huang,Xiangsheng Huang,Di Wen,Junwei Zheng,Yufan Chen,Kailun Yang,Jiamin Wu,Chongqing Hao,Rainer Stiefelhagen
発行日 2025-06-11 12:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.RO, eess.IV パーマリンク