IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition

要約

ロボットによる摂食補助は、摂食障害のある人の生活の質を向上させる大きな可能性を秘めています。
しかし、さまざまな条件下で多様な食品を入手し、目に見えない食品を一般化するには、特有の課題が生じます。
視覚的な手がかり(色、形、質感など)から得られる表面レベルの幾何学的情報(バウンディングボックスやポーズなど)に依存する既存の方法は、特に食品が同様の物理的特性を共有しているものの、見た目が異なる場合には、適応性と堅牢性に欠けることがよくあります。

食物獲得の方針を学習するために模倣学習(IL)を採用しています。
既存の方法では、IL または強化学習 (RL) を使用して、ResNet-50 などの既製の画像エンコーダーに基づいてポリシーを学習します。
ただし、そのような表現は堅牢ではなく、さまざまな買収シナリオにわたって一般化するのが困難です。
これらの制限に対処するために、我々は、視覚的、物理的、時間的、幾何学的表現を統合して食物獲得のための IL の堅牢性と汎用性を強化する新しいアプローチ IMRL (統合多次元表現学習) を提案します。
私たちのアプローチは、食品の種類と物理的特性 (固体、半固体、粒状、液体、混合物など) を捕捉し、獲得アクションの時間的ダイナミクスをモデル化し、幾何学的な情報を導入して最適なすくいポイントを決定し、ボウルの満腹度を評価します。
IMRL により、IL はコンテキストに基づいてすくい戦略を適応的に調整できるようになり、さまざまな食料入手シナリオに対応するロボットの能力が向上します。
実際のロボットでの実験は、目に見えない設定へのゼロショットの一般化を含め、さまざまな食品やボウルの構成にわたる私たちのアプローチの堅牢性と適応性を実証します。
私たちのアプローチでは、最もパフォーマンスの高いベースラインと比較して、成功率が最大 $35\%$ 向上しました。

要約(オリジナル)

Robotic assistive feeding holds significant promise for improving the quality of life for individuals with eating disabilities. However, acquiring diverse food items under varying conditions and generalizing to unseen food presents unique challenges. Existing methods that rely on surface-level geometric information (e.g., bounding box and pose) derived from visual cues (e.g., color, shape, and texture) often lacks adaptability and robustness, especially when foods share similar physical properties but differ in visual appearance. We employ imitation learning (IL) to learn a policy for food acquisition. Existing methods employ IL or Reinforcement Learning (RL) to learn a policy based on off-the-shelf image encoders such as ResNet-50. However, such representations are not robust and struggle to generalize across diverse acquisition scenarios. To address these limitations, we propose a novel approach, IMRL (Integrated Multi-Dimensional Representation Learning), which integrates visual, physical, temporal, and geometric representations to enhance the robustness and generalizability of IL for food acquisition. Our approach captures food types and physical properties (e.g., solid, semi-solid, granular, liquid, and mixture), models temporal dynamics of acquisition actions, and introduces geometric information to determine optimal scooping points and assess bowl fullness. IMRL enables IL to adaptively adjust scooping strategies based on context, improving the robot’s capability to handle diverse food acquisition scenarios. Experiments on a real robot demonstrate our approach’s robustness and adaptability across various foods and bowl configurations, including zero-shot generalization to unseen settings. Our approach achieves improvement up to $35\%$ in success rate compared with the best-performing baseline.

arxiv情報

著者 Rui Liu,Zahiruddin Mahammad,Amisha Bhaskar,Pratap Tokekar
発行日 2024-09-18 16:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク