The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards

要約

視覚言語モデル (VLM) は、身体化されたエージェントが指示に従うように訓練するための報酬シグナルを生成するためにますます使用されていますが、私たちの調査では、VLM 報酬によって導かれるエージェントは、本質的な (探索主導型) 報酬のみを採用しているエージェントと比べてパフォーマンスが劣る場合が多く、設定された期待に反していることが明らかになりました。
最近の仕事で。
私たちは、偽陽性報酬 (意図しない軌跡が誤って報酬を与えられるインスタンス) は偽陰性報酬よりも有害であると仮説を立てています。
私たちの分析はこの仮説を裏付け、広く使用されているコサイン類似度メトリクスは報酬推定値を誤って検出する傾向があることを明らかにしました。
これに対処するために、ノイズを軽減するように設計された新しい報酬関数である BiMI ({Bi}nary {M}utual {I}nformation) を導入します。
BiMI は、多様で困難な組み込みナビゲーション環境全体での学習効率を大幅に向上させます。
私たちの調査結果は、さまざまな種類の報酬ノイズがエージェントの学習にどのような影響を与えるかについて微妙な理解を提供し、身体化されたエージェントをトレーニングする際にマルチモーダルな報酬信号ノイズに対処することの重要性を強調しています。

要約(オリジナル)

While Vision-Language Models (VLMs) are increasingly used to generate reward signals for training embodied agents to follow instructions, our research reveals that agents guided by VLM rewards often underperform compared to those employing only intrinsic (exploration-driven) rewards, contradicting expectations set by recent work. We hypothesize that false positive rewards — instances where unintended trajectories are incorrectly rewarded — are more detrimental than false negatives. Our analysis confirms this hypothesis, revealing that the widely used cosine similarity metric is prone to false positive reward estimates. To address this, we introduce BiMI ({Bi}nary {M}utual {I}nformation), a novel reward function designed to mitigate noise. BiMI significantly enhances learning efficiency across diverse and challenging embodied navigation environments. Our findings offer a nuanced understanding of how different types of reward noise impact agent learning and highlight the importance of addressing multimodal reward signal noise when training embodied agents

arxiv情報

著者 Sukai Huang,Nir Lipovetzky,Trevor Cohn
発行日 2024-10-23 03:22:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク