要約
【タイトル】DeePoint:固定視点からの指示認識と方向推定
【要約】
– DeePointは、固定視点からの指示認識と方向推定を実現する。
– DeePointは、Transformerベースの新しいディープネットワークモデルであり、体の部位の空間的および時間的な調整を完全に活用する。
– DeePointの開発にあたり、規模の大きい「DPデータセット」を導入。このデータセットは、33人以上が異なるスタイルで指示を示し、各フレームに指示のタイミングと3D方向が注釈されている2百万以上のフレームから構成されている。
– DeePointが提供する望ましい精度と効率を実証したことで、これらのツールが、視覚的な人間の意図理解の基盤として役立つことが期待される。
要約(オリジナル)
In this paper, we realize automatic visual recognition and direction estimation of pointing. We introduce the first neural pointing understanding method based on two key contributions. The first is the introduction of a first-of-its-kind large-scale dataset for pointing recognition and direction estimation, which we refer to as the DP Dataset. DP Dataset consists of more than 2 million frames of over 33 people pointing in various styles annotated for each frame with pointing timings and 3D directions. The second is DeePoint, a novel deep network model for joint recognition and 3D direction estimation of pointing. DeePoint is a Transformer-based network which fully leverages the spatio-temporal coordination of the body parts, not just the hands. Through extensive experiments, we demonstrate the accuracy and efficiency of DeePoint. We believe DP Dataset and DeePoint will serve as a sound foundation for visual human intention understanding.
arxiv情報
著者 | Shu Nakamura,Yasutomo Kawanishi,Shohei Nobuhara,Ko Nishino |
発行日 | 2023-04-14 07:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI