要約
マクロおよびミクロ表現のスポッティングのタスクは、トリミングされていないビデオ内の時間的表現インスタンスを正確に位置特定し、分類することを目的としています。
式の分布がまばらで持続時間が異なるため、既存のアンカーベースのメソッドは、多くの場合、事前定義されたアンカーからの偏差をエンコードすることによってインスタンスを表します。
さらに、これらの方法は通常、トリミングされていないビデオを固定長のスライディング ウィンドウにスライスします。
ただし、アンカーベースのエンコーディングではすべてのトレーニング間隔をキャプチャできないことが多く、元のビデオをスライディング ウィンドウとしてスライスすると、貴重なトレーニング間隔が破棄される可能性があります。
これらの制限を克服するために、ポイントツーインターバル表現スポッティングを実現するビジョン トランスフォーマー アーキテクチャに基づくシンプルかつ効果的なモデルである PESFormer を導入します。
PESFormer は、ダイレクト タイムスタンプ エンコーディング (DTE) アプローチを採用してアンカーを置き換え、グラウンド トゥルース全体を最適化するのではなく、各タイムスタンプのバイナリ分類を可能にします。
したがって、すべてのトレーニング間隔は個別のタイムスタンプの形式で保持されます。
トレーニング間隔を最大限に活用するために、スライディング ウィンドウ法で作成された短いビデオを置き換えることによって前処理プロセスを強化します。代わりに、トリミングされていないトレーニング ビデオをゼロ パディングして、所定の長さの均一で長いビデオを作成する戦略を実装します。
。
この操作により、元のトレーニング間隔が効率的に保存され、ビデオ スライスの強化が不要になります。CAS(ME)^2、CAS(ME)^3、SAMM-LV の 3 つのデータセットに対する広範な定性的および定量的な評価により、PESFormer が既存の手法よりも優れていることが実証されました。
、最高のパフォーマンスを実現します。
要約(オリジナル)
The task of macro- and micro-expression spotting aims to precisely localize and categorize temporal expression instances within untrimmed videos. Given the sparse distribution and varying durations of expressions, existing anchor-based methods often represent instances by encoding their deviations from predefined anchors. Additionally, these methods typically slice the untrimmed videos into fixed-length sliding windows. However, anchor-based encoding often fails to capture all training intervals, and slicing the original video as sliding windows can result in valuable training intervals being discarded. To overcome these limitations, we introduce PESFormer, a simple yet effective model based on the vision transformer architecture to achieve point-to-interval expression spotting. PESFormer employs a direct timestamp encoding (DTE) approach to replace anchors, enabling binary classification of each timestamp instead of optimizing entire ground truths. Thus, all training intervals are retained in the form of discrete timestamps. To maximize the utilization of training intervals, we enhance the preprocessing process by replacing the short videos produced through the sliding window method.Instead, we implement a strategy that involves zero-padding the untrimmed training videos to create uniform, longer videos of a predetermined duration. This operation efficiently preserves the original training intervals and eliminates video slice enhancement.Extensive qualitative and quantitative evaluations on three datasets — CAS(ME)^2, CAS(ME)^3 and SAMM-LV — demonstrate that our PESFormer outperforms existing techniques, achieving the best performance.
arxiv情報
著者 | Wang-Wang Yu,Kai-Fu Yang,Xiangrui Hu,Jingwen Jiang,Hong-Mei Yan,Yong-Jie Li |
発行日 | 2024-10-24 12:45:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google