Learn from the Past: Language-conditioned Object Rearrangement with Large Language Models

要約

特定の目標状態への再配置のオブジェクト操作は、共同ロボットにとって重要なタスクです。
オブジェクトの配置を正確に決定することは重要な課題です。誤った調整はタスクの複雑さと衝突のリスクを高め、再配置プロセスの効率に影響を与える可能性があるためです。
現在のほとんどの方法は、ゴールポジションを予測するためにモデルをトレーニングするために、事前に収集されたデータセットに大きく依存しています。
その結果、これらの方法は特定の命令に制限されており、より幅広い適用性と一般化を制限します。
この論文では、大規模な言語モデル(LLM)に基づいて、柔軟な言語条件付きオブジェクト再配置のフレームワークを提案します。
私たちのアプローチは、現在の望ましい目標位置を達成するための最良の戦略を推測するための参照として、成功した過去の経験を利用することにより、人間の推論を模倣します。
LLMの強力な自然言語の理解と推論能力に基づいて、私たちの方法は、さまざまな日常のオブジェクトと自由形式の言語命令をゼロショット方法で処理するために一般化します。
実験結果は、長い順序のシーケンスを含む方法でさえ、私たちの方法がロボット再配置タスクを効果的に実行できることを示しています。

要約(オリジナル)

Object manipulation for rearrangement into a specific goal state is a significant task for collaborative robots. Accurately determining object placement is a key challenge, as misalignment can increase task complexity and the risk of collisions, affecting the efficiency of the rearrangement process. Most current methods heavily rely on pre-collected datasets to train the model for predicting the goal position. As a result, these methods are restricted to specific instructions, which limits their broader applicability and generalisation. In this paper, we propose a framework of flexible language-conditioned object rearrangement based on the Large Language Model (LLM). Our approach mimics human reasoning by making use of successful past experiences as a reference to infer the best strategies to achieve a current desired goal position. Based on LLM’s strong natural language comprehension and inference ability, our method generalises to handle various everyday objects and free-form language instructions in a zero-shot manner. Experimental results demonstrate that our methods can effectively execute the robotic rearrangement tasks, even those involving long sequences of orders.

arxiv情報

著者 Guanqun Cao,Ryan Mckenna,Erich Graf,John Oyekan
発行日 2025-03-05 13:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク