Detecting Human-Object Contact in Images

要約

人間は移動や作業を行うために常に物体に接触しています。そのため、人間と物体の接触を検出することは、人間中心の人工知能を構築する上で重要である。しかし、画像から身体とシーンの接触を検出する頑健な方法は存在せず、そのような検出器を学習するデータセットも存在しない。我々は、このギャップを埋めるために、画像に対する人間と物体の接触に関する新しいデータセットであるHOT(’Human-Object conTact’)を用いている。HOTを構築するために、我々は2つのデータソースを使用する。(1)3Dシーンで動く3D人体メッシュのPROXデータセットを用い、3Dメッシュの近接と投影により、接触する2D画像領域を自動的に注釈する。(2) V-COCO、HAKE、Watch-n-Patchの各データセットを用い、訓練されたアノテーターに、接触が起こった2次元画像領域に対してポリゴンを描いてもらう。また、人体の関与する身体部位についてもアノテーションを行う。HOTデータセットを用いて、新しい接触検出器を訓練する。この検出器は、1枚のカラー画像を入力とし、2Dの接触ヒートマップと、接触している身体部位のラベルを出力する。これは、現在の足と地面、または手と物体の接触検出器を、全身の一般性に拡張する、新しい挑戦的な課題である。この検出器では、パーツアテンションブランチを用いて、周囲の身体パーツとシーンのコンテキストを通して接触推定を導く。本検出器を広範囲に評価し、定量的な結果から、本モデルがベースラインを上回り、すべての構成要素が性能向上に寄与していることが示されました。オンラインリポジトリの画像を用いた結果、妥当な検出と一般化可能性が示された。

要約(オリジナル)

Humans constantly contact objects to move and perform tasks. Thus, detecting human-object contact is important for building human-centered artificial intelligence. However, there exists no robust method to detect contact between the body and the scene from an image, and there exists no dataset to learn such a detector. We fill this gap with HOT (‘Human-Object conTact’), a new dataset of human-object contacts for images. To build HOT, we use two data sources: (1) We use the PROX dataset of 3D human meshes moving in 3D scenes, and automatically annotate 2D image areas for contact via 3D mesh proximity and projection. (2) We use the V-COCO, HAKE and Watch-n-Patch datasets, and ask trained annotators to draw polygons for the 2D image areas where contact takes place. We also annotate the involved body part of the human body. We use our HOT dataset to train a new contact detector, which takes a single color image as input, and outputs 2D contact heatmaps as well as the body-part labels that are in contact. This is a new and challenging task that extends current foot-ground or hand-object contact detectors to the full generality of the whole body. The detector uses a part-attention branch to guide contact estimation through the context of the surrounding body parts and scene. We evaluate our detector extensively, and quantitative results show that our model outperforms baselines, and that all components contribute to better performance. Results on images from an online repository show reasonable detections and generalizability.

arxiv情報

著者 Yixin Chen,Sai Kumar Dwivedi,Michael J. Black,Dimitrios Tzionas
発行日 2023-03-06 18:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク