Scene-aware Human Pose Generation using Transformer

要約

アフォーダンス学習は、シーンにおけるアクターの相互作用の機会を考慮するため、シーン理解や知能ロボット工学に広く応用されている。本論文では、コンテキストに基づいたアフォーダンス学習、すなわち、アフォーダンスをコンテキストとして利用し、シーンにおける妥当な人間のポーズを生成することに焦点を当てる。既存のシーンを考慮した人間のポーズ生成手法は、ポーズテンプレートを用いるか否かによって2つのカテゴリに分けられる。我々の提案する手法は、テンプレートに基づくカテゴリに属し、代表的なポーズテンプレートの恩恵を受ける。さらに、近年の変換器ベースの手法に触発され、各クエリ埋め込みをポーズテンプレートに関連付け、クエリ埋め込みとシーン特徴マップの間の相互作用を利用して、各ポーズテンプレートのスケールとオフセットを効果的に予測する。さらに、予測されたスケールを与えられたオフセット学習を容易にするために、知識蒸留を採用する。Sitcomデータセットを用いた包括的な実験により、本手法の有効性を実証する。

要約(オリジナル)

Affordance learning considers the interaction opportunities for an actor in the scene and thus has wide application in scene understanding and intelligent robotics. In this paper, we focus on contextual affordance learning, i.e., using affordance as context to generate a reasonable human pose in a scene. Existing scene-aware human pose generation methods could be divided into two categories depending on whether using pose templates. Our proposed method belongs to the template-based category, which benefits from the representative pose templates. Moreover, inspired by recent transformer-based methods, we associate each query embedding with a pose template, and use the interaction between query embeddings and scene feature map to effectively predict the scale and offsets for each pose template. In addition, we employ knowledge distillation to facilitate the offset learning given the predicted scale. Comprehensive experiments on Sitcom dataset demonstrate the effectiveness of our method.

arxiv情報

著者 Jieteng Yao,Junjie Chen,Li Niu,Bin Sheng
発行日 2023-08-04 07:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク