要約
ロボットを実際のアプリケーションに完全に統合するには、訓練されていないユーザーから自然言語指令を解釈および実行する能力が必要です。
人間の言語に固有の変動性を考えると、同等の指示は異なる方法でフレーズされる場合がありますが、一貫したロボットの動作が必要です。
大規模な言語モデル(LLM)は高度な言語理解を持っていますが、ユーザーのフレーズの変動性の処理にしばしば揺れ動き、事前定義されたコマンドに依存し、予測不可能な出力を示します。
このレターは、事前定義されたフレーズをバイパスして、動作可能なモーション軌跡に口頭でコマンドをマップする新しい音声から軌跡のフレームワークであるディレクティブ言語モデル(DLM)を紹介します。
DLMは、ヒト誘導ロボットの動きのシミュレートされたデモンストレーションに行動クローニング(BC)を利用します。
一般化を強化するために、GPTベースのセマンティック増強は、同じ動きの軌跡でラベル付けされたトレーニングコマンドの多様な言い換えを生成します。
DLMには、適応運動洗練と確率的サンプリングのための拡散ポリシーベースの軌道生成がさらに組み込まれています。
LLMベースの方法とは対照的に、DLMは、広範な迅速なエンジニアリングなしで一貫した予測可能なモーションを保証し、リアルタイムのロボットガイダンスを促進します。
DLMが軌道データから学習すると、それは具体化されていない、多様なロボットプラットフォーム全体の展開を可能にします。
実験結果は、DLMの改善されたコマンド一般化、構造化されたフレーゼンへの依存の減少、および人間のような動きの達成を示しています。
要約(オリジナル)
Full integration of robots into real-life applications necessitates their ability to interpret and execute natural language directives from untrained users. Given the inherent variability in human language, equivalent directives may be phrased differently, yet require consistent robot behavior. While Large Language Models (LLMs) have advanced language understanding, they often falter in handling user phrasing variability, rely on predefined commands, and exhibit unpredictable outputs. This letter introduces the Directive Language Model (DLM), a novel speech-to-trajectory framework that directly maps verbal commands to executable motion trajectories, bypassing predefined phrases. DLM utilizes Behavior Cloning (BC) on simulated demonstrations of human-guided robot motion. To enhance generalization, GPT-based semantic augmentation generates diverse paraphrases of training commands, labeled with the same motion trajectory. DLM further incorporates a diffusion policy-based trajectory generation for adaptive motion refinement and stochastic sampling. In contrast to LLM-based methods, DLM ensures consistent, predictable motion without extensive prompt engineering, facilitating real-time robotic guidance. As DLM learns from trajectory data, it is embodiment-agnostic, enabling deployment across diverse robotic platforms. Experimental results demonstrate DLM’s improved command generalization, reduced dependence on structured phrasing, and achievement of human-like motion.
arxiv情報
著者 | Eran Beeri Bamani,Eden Nissinman,Rotem Atari,Nevo Heimann Saadon,Avishai Sintov |
発行日 | 2025-04-07 13:54:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google