要約
最近提案されたニューラルネットワークベースの時間的行動検出(TAD)モデルは、共有重み検出ヘッドにより、複雑なシーンから様々な長さの行動インスタンスを識別的に抽出し、モデル化することに本質的に限界がある。本稿では、動的ニューラルネットワークの成功に触発され、異なるタイムスタンプにおいてカーネル重みと受容野を同時に適応させることができる、新しい動的特徴集約(DFA)モジュールを構築する。DFAに基づき、提案する動的エンコーダ層は、行動時間範囲内の時間的特徴を集約し、抽出された表現の識別性を保証する。さらに、DFAを用いることで、動画像から多様な範囲の行動インスタンスを検出するために、パラメータと学習された受容野を調整したマルチスケール特徴量を適応的に集約するDynamic TAD head (DyHead)を開発することができる。提案するエンコーダ層とDyHeadにより、新しい動的TADモデルDyFADetは、HACS-Segment、THUMOS14、ActivityNet-1.3、Epic-Kitchen 100、Ego4D-Moment QueriesV1.0、FineActionなどの一連の困難なTADベンチマークで有望な性能を達成した。コードはhttps://github.com/yangle15/DyFADet-pytorch。
要約(オリジナル)
Recent proposed neural network-based Temporal Action Detection (TAD) models are inherently limited to extracting the discriminative representations and modeling action instances with various lengths from complex scenes by shared-weights detection heads. Inspired by the successes in dynamic neural networks, in this paper, we build a novel dynamic feature aggregation (DFA) module that can simultaneously adapt kernel weights and receptive fields at different timestamps. Based on DFA, the proposed dynamic encoder layer aggregates the temporal features within the action time ranges and guarantees the discriminability of the extracted representations. Moreover, using DFA helps to develop a Dynamic TAD head (DyHead), which adaptively aggregates the multi-scale features with adjusted parameters and learned receptive fields better to detect the action instances with diverse ranges from videos. With the proposed encoder layer and DyHead, a new dynamic TAD model, DyFADet, achieves promising performance on a series of challenging TAD benchmarks, including HACS-Segment, THUMOS14, ActivityNet-1.3, Epic-Kitchen 100, Ego4D-Moment QueriesV1.0, and FineAction. Code is released to https://github.com/yangle15/DyFADet-pytorch.
arxiv情報
著者 | Le Yang,Ziwei Zheng,Yizeng Han,Hao Cheng,Shiji Song,Gao Huang,Fan Li |
発行日 | 2024-07-03 15:29:10+00:00 |
arxivサイト | arxiv_id(pdf) |