Curiosity-Diffuser: Curiosity Guide Diffusion Models for Reliability

要約

ロボットインテリジェンスのボトルネックの1つは、コントロールモデルとは異なり、明確に定義された収束ドメインと安定性を欠いているニューラルネットワークモデルの不安定性です。
これは、物理的な世界で知性を適用する際のリスクにつながります。
具体的には、ニューラルネットワークに基づく模倣ポリシーは幻覚を生成し、実際のアプリケーションの安全性に影響を与える不正確な行動につながる可能性があります。
この問題に対処するために、このペーパーでは、好奇心を低下させる軌跡を生成するために条件付き拡散モデルを導くことを目的とした、好奇心拡散装置を提案し、それによって政策の信頼性が向上します。
コアのアイデアは、ランダムネットワーク蒸留(RND)Curiosity Moduleを使用して、モデルの動作がトレーニングデータと整合するかどうかを評価し、分類器ガイダンスの拡散により好奇心を最小限に抑えて、推論中の過剰な一般化を減らすことです。
さらに、信頼性の学習に関する研究を容易にするために、生成された動作とトレーニングデータセットの類似性を測定し、ポリシーの信頼性を評価するための計算効率の高いメトリックを提案します。
最後に、シミュレーションは、提案された方法のさまざまなシナリオへの有効性と適用性を検証し、Curiosity-Diffuserがタスクのパフォーマンスを大幅に改善し、トレーニングデータにより似た動作を生成することを示します。
この作業のコードは、github.com/carldegio/curisity-diffuserで入手できます

要約(オリジナル)

One of the bottlenecks in robotic intelligence is the instability of neural network models, which, unlike control models, lack a well-defined convergence domain and stability. This leads to risks when applying intelligence in the physical world. Specifically, imitation policy based on neural network may generate hallucinations, leading to inaccurate behaviors that impact the safety of real-world applications. To address this issue, this paper proposes the Curiosity-Diffuser, aimed at guiding the conditional diffusion model to generate trajectories with lower curiosity, thereby improving the reliability of policy. The core idea is to use a Random Network Distillation (RND) curiosity module to assess whether the model’s behavior aligns with the training data, and then minimize curiosity by classifier guidance diffusion to reduce overgeneralization during inference. Additionally, we propose a computationally efficient metric for evaluating the reliability of the policy, measuring the similarity between the generated behaviors and the training dataset, to facilitate research about reliability learning. Finally, simulation verify the effectiveness and applicability of the proposed method to a variety of scenarios, showing that Curiosity-Diffuser significantly improves task performance and produces behaviors that are more similar to the training data. The code for this work is available at: github.com/CarlDegio/Curiosity-Diffuser

arxiv情報

著者 Zihao Liu,Xing Liu,Yizhai Zhang,Zhengxiong Liu,Panfeng Huang
発行日 2025-03-19 02:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク