Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners

要約

大規模な言語モデル(LLMS)は、さまざまなロボット制御タスクで強力なパフォーマンスを実証しています。
ただし、実際のアプリケーションでの展開は抑制されたままです。
GPT-O4miniなどの最先端のLLMでさえ、ロボットを到達不可能な場所に誘導したり、ロボット間の衝突を引き起こしたりするなど、物理的な制約に違反する無効なアクションプランを頻繁に作成します。
この問題は、主に、推論プロセス中のこれらの物理的制約に対する認識の欠如から生じます。
この問題に対処するために、補強学習を検証可能な報酬(RLVR)と統合する新しいフレームワークを提案し、LLMSへの物理的制約の知識を奨励して、計画の生成中に制約を認識する推論を誘導します。
このアプローチでは、コントロールタスクを正常に完了する有効なアクションプランのみが肯定的な報酬を受け取ります。
メソッドを2つの小規模LLMSに適用しました:非合理的なQWEN2.5-3B-Instructと推論QWEN3-4B。
実験結果は、制約対応の小さなLLMが制約なしで大規模なモデルを大幅に上回ることを示しています。
この作業は、物理的な制約で小さなLLMを接地することの有効性を強調し、複雑で物理的に制約された環境でスケーラブルで効率的なマルチロボット制御を可能にします。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong performance in various robot control tasks. However, their deployment in real-world applications remains constrained. Even state-ofthe-art LLMs, such as GPT-o4mini, frequently produce invalid action plans that violate physical constraints, such as directing a robot to an unreachable location or causing collisions between robots. This issue primarily arises from a lack of awareness of these physical constraints during the reasoning process. To address this issue, we propose a novel framework that integrates reinforcement learning with verifiable rewards (RLVR) to incentivize knowledge of physical constraints into LLMs to induce constraints-aware reasoning during plan generation. In this approach, only valid action plans that successfully complete a control task receive positive rewards. We applied our method to two small-scale LLMs: a non-reasoning Qwen2.5-3B-Instruct and a reasoning Qwen3-4B. The experiment results demonstrate that constraint-aware small LLMs largely outperform large-scale models without constraints, grounded on both the BoxNet task and a newly developed BoxNet3D environment built using MuJoCo. This work highlights the effectiveness of grounding even small LLMs with physical constraints to enable scalable and efficient multi-robot control in complex, physically constrained environments.

arxiv情報

著者 Jiabao Ji,Yongchao Chen,Yang Zhang,Ramana Rao Kompella,Chuchu Fan,Gaowen Liu,Shiyu Chang
発行日 2025-06-03 19:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク