Testing Human-Hand Segmentation on In-Distribution and Out-of-Distribution Data in Human-Robot Interactions Using a Deep Ensemble Model

要約

人間の手の信頼性の高い検出とセグメント化は、安全性を強化し、人間とロボットのコラボレーションにおける高度なインタラクションを促進するために重要です。
現在の研究では主に、深層学習 (DL) モデルのトレーニング データを反映する分布内 (ID) データの下で手のセグメンテーションを評価しています。
ただし、このアプローチでは、現実世界の人間とロボットのインタラクションでよく発生する配布外 (OOD) シナリオには対処できません。
この研究では、ID データとより困難な OOD シナリオの両方の下で、事前トレーニングされた DL モデルのパフォーマンスを評価することにより、新しいアプローチを紹介します。
現実的な産業シナリオを模倣するために、産業用ツール、さまざまな数の手 (0 ~ 4)、および手袋をした手と手袋をしていない手を備えたシンプルで雑然とした背景を特徴とする多様なデータセットを設計しました。
OOD シナリオでは、指を交差させるジェスチャーや、素早く動く手によるモーション ブラーなどのユニークでまれな条件を組み込み、認識的不確実性と偶然的不確実性の両方に対処しました。
複数の視点 (PoV) を確保するために、オペレーターの頭に取り付けられた自己中心カメラと静的カメラの両方を利用して、人間とロボットのインタラクションの RGB 画像をキャプチャしました。
このアプローチにより、複数のカメラの視点を考慮しながら、既存の自己中心的なデータセットや静的カメラ データセットでトレーニングされたモデルのパフォーマンスを評価することができました。
セグメンテーションには、基本学習器として UNet と RefineNet で構成されるディープ アンサンブル モデルを使用しました。
パフォーマンス評価は、セグメンテーション メトリックと予測エントロピーによる不確実性の定量化を使用して実施されました。
その結果、産業用データセットでトレーニングされたモデルが非産業用データセットでトレーニングされたモデルよりも優れていることが明らかになり、コンテキスト固有のトレーニングの重要性が強調されました。
すべてのモデルは OOD シナリオに苦労しましたが、産業用データセットでトレーニングされたモデルは大幅に優れた一般化を示しました。

要約(オリジナル)

Reliable detection and segmentation of human hands are critical for enhancing safety and facilitating advanced interactions in human-robot collaboration. Current research predominantly evaluates hand segmentation under in-distribution (ID) data, which reflects the training data of deep learning (DL) models. However, this approach fails to address out-of-distribution (OOD) scenarios that often arise in real-world human-robot interactions. In this study, we present a novel approach by evaluating the performance of pre-trained DL models under both ID data and more challenging OOD scenarios. To mimic realistic industrial scenarios, we designed a diverse dataset featuring simple and cluttered backgrounds with industrial tools, varying numbers of hands (0 to 4), and hands with and without gloves. For OOD scenarios, we incorporated unique and rare conditions such as finger-crossing gestures and motion blur from fast-moving hands, addressing both epistemic and aleatoric uncertainties. To ensure multiple point of views (PoVs), we utilized both egocentric cameras, mounted on the operator’s head, and static cameras to capture RGB images of human-robot interactions. This approach allowed us to account for multiple camera perspectives while also evaluating the performance of models trained on existing egocentric datasets as well as static-camera datasets. For segmentation, we used a deep ensemble model composed of UNet and RefineNet as base learners. Performance evaluation was conducted using segmentation metrics and uncertainty quantification via predictive entropy. Results revealed that models trained on industrial datasets outperformed those trained on non-industrial datasets, highlighting the importance of context-specific training. Although all models struggled with OOD scenarios, those trained on industrial datasets demonstrated significantly better generalization.

arxiv情報

著者 Reza Jalayer,Yuxin Chen,Masoud Jalayer,Carlotta Orsenigo,Masayoshi Tomizuka
発行日 2025-01-13 21:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG, cs.RO パーマリンク