Pixels2Pose: Super-Resolution Time-of-Flight Imaging for 3D Pose Estimation

要約

単一光子に敏感な深度センサーは、人間の姿勢やジェスチャー認識のための次世代エレクトロニクスでますます使用されています。
ただし、費用対効果の高いセンサーは通常、空間解像度が低く、基本的なモーション識別と単純なオブジェクト検出に使用が制限されます。
ここでは、単純な飛行時間型センサーの解像度を大幅に向上させる時間から空間へのマッピングを実行します。つまり、初期解像度 4$\times$4 ピクセルから解像度 32$\times$32 ピクセルの深度画像へと変化します。
その後、出力された深度マップを使用して、複数の人物の正確な 3 次元の人間の姿勢を推定できます。
ネットワークが入力データをどのように利用するかを直感的に理解し、関連するパラメーターに関する重要な情報を提供する、新しい説明可能なフレームワークを開発します。
私たちの研究は、単純な SPAD 飛行時間型センサーの使用例を大幅に拡大し、レーダーやソナーなど、同様のデータ タイプを持つ他のタイプのセンサーに適用される将来の超解像技術の有望な可能性を切り開きます。

要約(オリジナル)

Single-photon sensitive depth sensors are being increasingly used in next-generation electronics for human pose and gesture recognition. However, cost-effective sensors typically have a low spatial resolution, restricting their use to basic motion identification and simple object detection. Here we perform a temporal to spatial mapping that drastically increases the resolution of a simple time-of-flight sensor, i.e.~an initial resolution of 4$\times$4 pixels to depth images of resolution 32$\times$32 pixels. The output depth maps can then be used for accurate three-dimensional human pose estimation of multiple people. We develop a new explainable framework that provides intuition to how our network utilizes its input data and provides key information about the relevant parameters. Our work greatly expands the use cases of simple SPAD time-of-flight sensors and opens up promising possibilities for future super-resolution techniques applied to other types of sensors with similar data types, i.e. radar and sonar.

arxiv情報

著者 Alice Ruget,Max Tyler,Germán Mora Martín,Stirling Scholes,Feng Zhu,Istvan Gyongy,Brent Hearn,Steve McLaughlin,Abderrahim Halimi,Jonathan Leach
発行日 2022-08-19 10:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク