要約
私たちは、リソースに制約のある環境で大規模な世界モデルを展開するという課題に対処する、モデルベースの強化学習のための効率的な知識伝達アプローチを提案します。
私たちの手法は、大容量のマルチタスク エージェント (317M パラメータ) をコンパクトな 1M パラメータ モデルに抽出し、MT30 ベンチマークで正規化スコア 28.45 という最先端のパフォーマンスを達成し、元の 1M パラメータを大幅に改善しました。
モデルのスコアは 18.93 でした。
これは、複雑なマルチタスクの知識を効果的に統合するための当社の蒸留技術の能力を示しています。
さらに、FP16 ポストトレーニング量子化を適用し、パフォーマンスを維持しながらモデル サイズを 50% 削減します。
私たちの取り組みは、大規模モデルの能力と実際の展開上の制約との間のギャップを埋め、ロボット工学やその他のリソースが限られた領域における効率的でアクセス可能なマルチタスク強化学習のためのスケーラブルなソリューションを提供します。
要約(オリジナル)
We propose an efficient knowledge transfer approach for model-based reinforcement learning, addressing the challenge of deploying large world models in resource-constrained environments. Our method distills a high-capacity multi-task agent (317M parameters) into a compact 1M parameter model, achieving state-of-the-art performance on the MT30 benchmark with a normalized score of 28.45, a substantial improvement over the original 1M parameter model’s score of 18.93. This demonstrates the ability of our distillation technique to consolidate complex multi-task knowledge effectively. Additionally, we apply FP16 post-training quantization, reducing the model size by 50% while maintaining performance. Our work bridges the gap between the power of large models and practical deployment constraints, offering a scalable solution for efficient and accessible multi-task reinforcement learning in robotics and other resource-limited domains.
arxiv情報
著者 | Dmytro Kuzmenko,Nadiya Shvai |
発行日 | 2025-01-09 15:55:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google