Demonstrating Multi-Suction Item Picking at Scale via Multi-Modal Learning of Pick Success

要約

この作業は、産業規模での展開されたエンジニアリングソリューションのまばらに覆われた実世界のデータからロボット操作の側面を自律的に学習することで、パフォーマンスの向上を達成するソリューションをどのように提供できるかを示しています。
具体的には、マルチサクションロボットのピッキングに焦点を当て、候補ロボットピックの成功を予測するためのマルチモーダルビジュアルエンコーダーの適用に関する包括的な研究を実行します。
構造化されていない山から多様なアイテムを選ぶことは、倉庫などの実際の設定でのロボット操作にとって重要で挑戦的なタスクです。
クラッターからピッキングする方法は、オープンなアイテムのセットで動作する必要があり、同時に高度なスループットを実現するためのレイテンシの制約を満たす必要があります。
実証されたアプローチでは、RGB、深さ、セマンティックセグメンテーションなどの複数の入力モダリティを利用して、候補のマルチサクションピックの品質を推定します。
この戦略は、マルチモーダルのプレレインとFinetuneの組み合わせで、現実世界のアイテムを選ぶデータからトレーニングされています。
原稿は、大規模なアイテムピッキングデータセット、部分閉塞を含むことをターゲットにしたアイテムピッキングデータセット、およびパッケージピッキングデータセットで、パッケージピッキングデータセットを使用して、パッケージピッキングデータセットを提供します。
評価は、さまざまなアイテム構成、選択シーン、オブジェクトタイプのパフォーマンスを測定します。
アブレーションは、ドメイン内の事前トレーニングの影響、異なるモダリティの影響、および微調整の重要性を理解するのに役立ちます。
これらのアブレーションは、複数のモダリティにわたるトレーニングの重要性の両方を明らかにしているだけでなく、モダリティ間の関係を前提とするモデルが学習する能力も明らかにしているため、微調整と推論中に入力として使用できるサブセットのみが使用されます。

要約(オリジナル)

This work demonstrates how autonomously learning aspects of robotic operation from sparsely-labeled, real-world data of deployed, engineered solutions at industrial scale can provide with solutions that achieve improved performance. Specifically, it focuses on multi-suction robot picking and performs a comprehensive study on the application of multi-modal visual encoders for predicting the success of candidate robotic picks. Picking diverse items from unstructured piles is an important and challenging task for robot manipulation in real-world settings, such as warehouses. Methods for picking from clutter must work for an open set of items while simultaneously meeting latency constraints to achieve high throughput. The demonstrated approach utilizes multiple input modalities, such as RGB, depth and semantic segmentation, to estimate the quality of candidate multi-suction picks. The strategy is trained from real-world item picking data, with a combination of multimodal pretrain and finetune. The manuscript provides comprehensive experimental evaluation performed over a large item-picking dataset, an item-picking dataset targeted to include partial occlusions, and a package-picking dataset, which focuses on containers, such as boxes and envelopes, instead of unpackaged items. The evaluation measures performance for different item configurations, pick scenes, and object types. Ablations help to understand the effects of in-domain pretraining, the impact of different modalities and the importance of finetuning. These ablations reveal both the importance of training over multiple modalities but also the ability of models to learn during pretraining the relationship between modalities so that during finetuning and inference, only a subset of them can be used as input.

arxiv情報

著者 Che Wang,Jeroen van Baar,Chaitanya Mitash,Shuai Li,Dylan Randle,Weiyao Wang,Sumedh Sontakke,Kostas E. Bekris,Kapil Katyal
発行日 2025-06-12 05:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク