ALDM-Grasping: Diffusion-aided Zero-Shot Sim-to-Real Transfer for Robot Grasping

要約

Sim-to-Real の移行で遭遇する「現実のギャップ」に取り組むために、この研究では、シミュレーション設定と現実的な環境の間のアクションの把握における不一致を最小限に抑える拡散ベースのフレームワークを提案します。
このプロセスは、敵対的監視レイアウトから画像への拡散モデル (ALDM) をトレーニングすることから始まります。
次に、ALDM アプローチを活用してシミュレーション環境を強化し、写真のように忠実にレンダリングして、ロボットによる把握タスクのトレーニングを最適化します。
実験結果によると、このフレームワークは、さまざまな条件下での視覚的把握動作の精度と信頼性の向上により、成功率と新しい環境への適応性の両方で既存のモデルを上回っています。
具体的には、無地の背景でタスクを把握する場合は 75\% の成功率を達成し、より複雑なシナリオでは 65\% の成功率を維持します。
このパフォーマンスは、このフレームワークが、テキストの説明に基づいて制御された画像コンテンツを生成し、オブジェクトの把握ポイントを特定し、複雑で目に見えないシナリオでのゼロショット学習を実証することに優れていることを示しています。

要約(オリジナル)

To tackle the ‘reality gap’ encountered in Sim-to-Real transfer, this study proposes a diffusion-based framework that minimizes inconsistencies in grasping actions between the simulation settings and realistic environments. The process begins by training an adversarial supervision layout-to-image diffusion model(ALDM). Then, leverage the ALDM approach to enhance the simulation environment, rendering it with photorealistic fidelity, thereby optimizing robotic grasp task training. Experimental results indicate this framework outperforms existing models in both success rates and adaptability to new environments through improvements in the accuracy and reliability of visual grasping actions under a variety of conditions. Specifically, it achieves a 75\% success rate in grasping tasks under plain backgrounds and maintains a 65\% success rate in more complex scenarios. This performance demonstrates this framework excels at generating controlled image content based on text descriptions, identifying object grasp points, and demonstrating zero-shot learning in complex, unseen scenarios.

arxiv情報

著者 Yiwei Li,Zihao Wu,Huaqin Zhao,Tianze Yang,Zhengliang Liu,Peng Shu,Jin Sun,Ramviyas Parasuraman,Tianming Liu
発行日 2024-03-18 04:20:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク