EgoPAT3Dv2: Predicting 3D Action Target from 2D Egocentric Vision for Human-Robot Interaction

要約

自己中心的なビデオから手の動きの 3D アクションのターゲット位置を予測するロボットの機能により、ヒューマン ロボット インタラクション (HRI) の安全性と効率が大幅に向上します。
これまでの研究は主にセマンティックなアクション分類や 2D ターゲット領域予測に焦点を当てていましたが、特にヘッドセット デバイスの普及が進んでいることを考慮すると、アクション ターゲットの 3D 座標を予測することで、より汎用性の高い下流のロボット工学タスクへの道が開かれる可能性があると我々は主張しています。
この研究は、自己中心的な 3D アクション ターゲット予測専用の唯一のデータセットである EgoPAT3D を拡張します。
私たちはその規模と多様性の両方を強化し、一般化の可能性を高めます。
さらに、大規模な事前トレーニング済みモデルと人間の事前知識を導入することで、ベースライン アルゴリズムを大幅に強化します。
驚くべきことに、当社の新しいアルゴリズムは、RGB 画像のみを使用して優れた予測結果を達成できるようになり、以前の 3D 点群と IMU 入力の必要性がなくなりました。
さらに、強化されたベースライン アルゴリズムを現実世界のロボット プラットフォームに展開し、単純な HRI タスクにおける実用性を示します。
このデモンストレーションは、当社の進歩が現実世界に適用可能であることを示しており、自己中心的なビジョンを伴うより多くの HRI ユースケースを刺激する可能性があります。
すべてのコードとデータはオープンソースであり、プロジェクトの Web サイトで見つけることができます。

要約(オリジナル)

A robot’s ability to anticipate the 3D action target location of a hand’s movement from egocentric videos can greatly improve safety and efficiency in human-robot interaction (HRI). While previous research predominantly focused on semantic action classification or 2D target region prediction, we argue that predicting the action target’s 3D coordinate could pave the way for more versatile downstream robotics tasks, especially given the increasing prevalence of headset devices. This study expands EgoPAT3D, the sole dataset dedicated to egocentric 3D action target prediction. We augment both its size and diversity, enhancing its potential for generalization. Moreover, we substantially enhance the baseline algorithm by introducing a large pre-trained model and human prior knowledge. Remarkably, our novel algorithm can now achieve superior prediction outcomes using solely RGB images, eliminating the previous need for 3D point clouds and IMU input. Furthermore, we deploy our enhanced baseline algorithm on a real-world robotic platform to illustrate its practical utility in straightforward HRI tasks. The demonstrations showcase the real-world applicability of our advancements and may inspire more HRI use cases involving egocentric vision. All code and data are open-sourced and can be found on the project website.

arxiv情報

著者 Irving Fang,Yuzhong Chen,Yifan Wang,Jianghan Zhang,Qiushi Zhang,Jiali Xu,Xibo He,Weibo Gao,Hao Su,Yiming Li,Chen Feng
発行日 2024-03-08 04:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク