Guided Attention for Interpretable Motion Captioning

要約

最近、テキストを条件とした人間の動き生成について、多様で広範な研究が行われている。しかし、その逆方向であるモーションキャプションの進歩は、それに匹敵するほど進んでいない。本論文では、時空間的かつ適応的な注意メカニズムによって解釈可能性を強調することで、テキスト生成の品質を向上させる新しいアーキテクチャ設計を紹介する。人間のような推論を促すために、学習中に注意を誘導する方法を提案し、時間の経過とともに関連する骨格領域を強調し、動きに関連する単語を区別する。関連するヒストグラムと密度分布を用いて、我々のモデルの解釈可能性について議論し、定量化する。さらに、解釈可能性を活用して、行動定位、身体部位の識別、動きに関連する単語の区別など、人間の動きに関するきめ細かな情報を導き出す。最後に、我々のアプローチの他のタスクへの転用可能性について議論する。我々の実験は、注意誘導が解釈可能なキャプションを導くと同時に、パラメータ数が多く、解釈不可能な最先端のシステムと比較してパフォーマンスを向上させることを実証している。コードはhttps://github.com/rd20karim/M2T-Interpretable。

要約(オリジナル)

Diverse and extensive work has recently been conducted on text-conditioned human motion generation. However, progress in the reverse direction, motion captioning, has seen less comparable advancement. In this paper, we introduce a novel architecture design that enhances text generation quality by emphasizing interpretability through spatio-temporal and adaptive attention mechanisms. To encourage human-like reasoning, we propose methods for guiding attention during training, emphasizing relevant skeleton areas over time and distinguishing motion-related words. We discuss and quantify our model’s interpretability using relevant histograms and density distributions. Furthermore, we leverage interpretability to derive fine-grained information about human motion, including action localization, body part identification, and the distinction of motion-related words. Finally, we discuss the transferability of our approaches to other tasks. Our experiments demonstrate that attention guidance leads to interpretable captioning while enhancing performance compared to higher parameter-count, non-interpretable state-of-the-art systems. The code is available at: https://github.com/rd20karim/M2T-Interpretable.

arxiv情報

著者 Karim Radouane,Julien Lagarde,Sylvie Ranwez,Andon Tchechmedjiev
発行日 2024-09-03 13:00:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク