要約
長距離具体化された計画は、具体化されたAIを支えています。
長老のタスクを達成するために、最も実行可能な方法の1つは、抽象的な指示を一連の実用的なステップに分解することです。
ファンデーションモデルは、タスクに非常に関連する例が提供されていない限り、長期式の計画では依然として論理的なエラーと幻覚に直面しています。
ただし、ランダムタスクに非常に関連する例を提供することは非実用的です。
したがって、リアルタイムの長距離具体化された計画のための新しいフレームワークであるRepepを提示します。
repepは、微調整を通じて暗黙の論理推論を学習することにより、コンテキスト内の例なしに、幅広い長老のタスクを完了することができます。
微調整された大型ビジョン言語モデルは、スキル関数のシーケンスとして計画を定式化します。
これらの機能は、慎重に設計されたスキルライブラリから選択されています。
LepEpには、計画とステータスリコール用のメモリモジュールと、ロボットタイプ全体の汎用性用のロボット構成モジュールも装備されています。
さらに、データセットの希少性に取り組むためのデータ生成パイプラインを提案します。
データセットを構築するとき、暗黙の論理関係を検討し、モデルが暗黙の論理関係を学び、幻覚を払拭できるようにしました。
さまざまな長期タスクにわたる包括的な評価を通じて、ELEPは、目に見えないタスクでも、最新のベースライン方法よりも高い成功率と実行のコンプライアンスを示します。
要約(オリジナル)
Long-horizon embodied planning underpins embodied AI. To accomplish long-horizon tasks, one of the most feasible ways is to decompose abstract instructions into a sequence of actionable steps. Foundation models still face logical errors and hallucinations in long-horizon planning, unless provided with highly relevant examples to the tasks. However, providing highly relevant examples for any random task is unpractical. Therefore, we present ReLEP, a novel framework for Real-time Long-horizon Embodied Planning. ReLEP can complete a wide range of long-horizon tasks without in-context examples by learning implicit logical inference through fine-tuning. The fine-tuned large vision-language model formulates plans as sequences of skill functions. These functions are selected from a carefully designed skill library. ReLEP is also equipped with a Memory module for plan and status recall, and a Robot Configuration module for versatility across robot types. In addition, we propose a data generation pipeline to tackle dataset scarcity. When constructing the dataset, we considered the implicit logical relationships, enabling the model to learn implicit logical relationships and dispel hallucinations. Through comprehensive evaluations across various long-horizon tasks, ReLEP demonstrates high success rates and compliance to execution even on unseen tasks and outperforms state-of-the-art baseline methods.
arxiv情報
著者 | Siyuan Liu,Jiawei Du,Sicheng Xiang,Zibo Wang,Dingsheng Luo |
発行日 | 2025-03-13 10:15:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google