要約
この研究では、ロボット支援給餌 (RAF) のための空間注意モジュールを備えた新しい視覚模倣ネットワークを紹介します。
目標は、ボウルから食べ物を獲得する (つまり、すくう) ことです。
ただし、堅牢かつ適応的な食物操作を実現することは特に困難です。
これに対処するために、我々は視覚認識と模倣学習を統合し、ロボットがすくう際の多様なシナリオに対応できるようにするフレームワークを提案します。
AVIL (適応型視覚模倣学習) と名付けられた私たちのアプローチは、材料、サイズ、位置に関するさまざまなボウル構成や、粒状、半固体、液体などの多様な食品タイプに対して、たとえ存在下であっても適応性と堅牢性を示します。
気を散らすもの。
実際のロボットで実験を行うことで、アプローチの有効性を検証します。
また、そのパフォーマンスをベースラインと比較します。
結果は、すべてのシナリオでベースラインを上回る改善が見られ、成功指標に関して最大 2.5 倍の向上が見られます。
特に、粒状シリアルが入った透明なガラスボウルからのデータのみでトレーニングされた私たちのモデルは、さまざまな種類の食品を含む他のボウル構成でゼロショットテストしたときに一般化能力を示しています。
要約(オリジナル)
In this study, we introduce a novel visual imitation network with a spatial attention module for robotic assisted feeding (RAF). The goal is to acquire (i.e., scoop) food items from a bowl. However, achieving robust and adaptive food manipulation is particularly challenging. To deal with this, we propose a framework that integrates visual perception with imitation learning to enable the robot to handle diverse scenarios during scooping. Our approach, named AVIL (adaptive visual imitation learning), exhibits adaptability and robustness across different bowl configurations in terms of material, size, and position, as well as diverse food types including granular, semi-solid, and liquid, even in the presence of distractors. We validate the effectiveness of our approach by conducting experiments on a real robot. We also compare its performance with a baseline. The results demonstrate improvement over the baseline across all scenarios, with an enhancement of up to 2.5 times in terms of a success metric. Notably, our model, trained solely on data from a transparent glass bowl containing granular cereals, showcases generalization ability when tested zero-shot on other bowl configurations with different types of food.
arxiv情報
著者 | Rui Liu,Amisha Bhaskar,Pratap Tokekar |
発行日 | 2024-03-19 16:40:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google