要約
実際の環境で動作する将来のロボットシステムには、連続クラウド接続なしでオンボード具体化されたインテリジェンスが必要になり、計算能力とメモリの制約とのバランスをとります。
この作業は、R1-Zeroアプローチの拡張を提示します。これにより、ロボットドメインでの低パラメーターカウント大手言語モデル(LLM)の使用が可能になります。
R1-Zeroアプローチは、静的データセットを使用してLLMSで数学的推論を可能にするために開発されました。
閉ループ補強学習(RL)フレームワークに統合することにより、ロボットドメインに拡張します。
この拡張は、監視された微調整(SFT)を介して大規模なモデルの蒸留のみに依存することなく、具体化された人工知能(具体化されたAI)設定の推論を強化します。
小規模LLMは、環境との閉ループの相互作用を学習することにより、効果的な推論パフォーマンスを実現できることを示しています。
自律運転環境では、QWEN2.5-1.5BモデルでSFTベースのベースラインで20.2%のパフォーマンスゲインが観察されます。
提案されたトレーニング手順を使用して、QWEN2.5-3Bは63.3%の制御適応性スコアを達成し、はるかに大きいクラウドバウンドGPT-4Oによって得られた58.5%を上回ります。
これらの結果は、小さなLLMの実用的なオンボード展開は実行可能であるだけでなく、環境フィードバックを通じて訓練された場合、より大きなモデルを上回ることができることを強調しており、静的監督ではなく実務経験に基づいたロボット具体化されたAIのインタラクティブな学習フレームワークの重要性を強調しています。
要約(オリジナル)
Future robotic systems operating in real-world environments will require on-board embodied intelligence without continuous cloud connection, balancing capabilities with constraints on computational power and memory. This work presents an extension of the R1-zero approach, which enables the usage of low parameter-count Large Language Models (LLMs) in the robotic domain. The R1-Zero approach was originally developed to enable mathematical reasoning in LLMs using static datasets. We extend it to the robotics domain through integration in a closed-loop Reinforcement Learning (RL) framework. This extension enhances reasoning in Embodied Artificial Intelligence (Embodied AI) settings without relying solely on distillation of large models through Supervised Fine-Tuning (SFT). We show that small-scale LLMs can achieve effective reasoning performance by learning through closed-loop interaction with their environment, which enables tasks that previously required significantly larger models. In an autonomous driving setting, a performance gain of 20.2%-points over the SFT-based baseline is observed with a Qwen2.5-1.5B model. Using the proposed training procedure, Qwen2.5-3B achieves a 63.3% control adaptability score, surpassing the 58.5% obtained by the much larger, cloud-bound GPT-4o. These results highlight that practical, on-board deployment of small LLMs is not only feasible but can outperform larger models if trained through environmental feedback, underscoring the importance of an interactive learning framework for robotic Embodied AI, one grounded in practical experience rather than static supervision.
arxiv情報
著者 | Liam Boyle,Nicolas Baumann,Paviththiren Sivasothilingam,Michele Magno,Luca Benini |
発行日 | 2025-05-06 07:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google