A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of Embodied AI

要約

Chat-GPT の出現により、Embodied AI への関心が高まりました。
ただし、既存の身体化 AI モデルの多くは、トレーニング環境との大規模な相互作用に大きく依存しており、現実の状況では実用的ではない可能性があります。
この目的を達成するために、Maniskill2 はさまざまな 3D オブジェクトを操作するための完全な物理シミュレーション ベンチマークを導入しました。
このベンチマークにより、エージェントはデモンストレーションの多様なデータセットを使用してトレーニングでき、テスト環境で目に見えないシナリオに一般化する能力を評価できます。
この論文では、Maniskill2 ベンチマークに基づいたモデルの一般化機能をさらに強化することを目的とした、新しい 2 段階の微調整戦略を提案します。
広範な実験を通じて、私たちは ManiSkill2 Challenge の 3 つのトラックすべてで 1 位を獲得することで、アプローチの有効性を実証しました。
私たちの発見は、身体化された AI モデルの一般化能力を向上させ、現実世界のシナリオでの実用的なアプリケーションへの道を開くための私たちの手法の可能性を強調しています。
私たちのソリューションのすべてのコードとモデルは、https://github.com/xtli12/GXU-LIPE.git で入手できます。

要約(オリジナル)

The advent of Chat-GPT has led to a surge of interest in Embodied AI. However, many existing Embodied AI models heavily rely on massive interactions with training environments, which may not be practical in real-world situations. To this end, the Maniskill2 has introduced a full-physics simulation benchmark for manipulating various 3D objects. This benchmark enables agents to be trained using diverse datasets of demonstrations and evaluates their ability to generalize to unseen scenarios in testing environments. In this paper, we propose a novel two-stage fine-tuning strategy that aims to further enhance the generalization capability of our model based on the Maniskill2 benchmark. Through extensive experiments, we demonstrate the effectiveness of our approach by achieving the 1st prize in all three tracks of the ManiSkill2 Challenge. Our findings highlight the potential of our method to improve the generalization abilities of Embodied AI models and pave the way for their ractical applications in real-world scenarios. All codes and models of our solution is available at https://github.com/xtli12/GXU-LIPE.git

arxiv情報

著者 Fang Gao,XueTao Li,Jun Yu,Feng Shaung
発行日 2023-07-21 04:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク