PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning

要約

3Dポイントクラウドモデリングと将来の認識の好みの改良を統合することにより、2Dベースの嗜好ベースの強化学習(PBRL)の制限を克服するために設計された新しいフレームワークであるPrismを提案します。
そのコアでは、Prismは3Dポイントクラウド言語モデル(3D-PC-LLM)を採用して、閉塞と視点のバイアスを緩和し、より安定した空間的に一貫した優先権信号を確保します。
さらに、Prismは、長期の考慮事項を組み込むためにチェーンオブ考え(COT)を活用して、静的な好みの比較でよく見られる近視眼的フィードバックを防ぎます。
従来のPBRL手法とは対照的に、この3D認識と将来指向の推論のこの統合は、目に見えないロボット環境全体で優先契約率、より速い政策収束、堅牢な一般化の大幅な利益につながります。
ロボット操作や自律ナビゲーションなどのタスクにまたがる実証結果は、正確な空間的理解と信頼できる長期的な意思決定が重要な現実世界のアプリケーションのプリズムの可能性を強調しています。
COT駆動型の好みのモデリングで3D幾何学的認識を橋渡しすることにより、Prismは、スケーラブルで人間に整合した強化学習の包括的な基盤を確立します。

要約(オリジナル)

We propose PRISM, a novel framework designed to overcome the limitations of 2D-based Preference-Based Reinforcement Learning (PBRL) by unifying 3D point cloud modeling and future-aware preference refinement. At its core, PRISM adopts a 3D Point Cloud-Language Model (3D-PC-LLM) to mitigate occlusion and viewpoint biases, ensuring more stable and spatially consistent preference signals. Additionally, PRISM leverages Chain-of-Thought (CoT) reasoning to incorporate long-horizon considerations, thereby preventing the short-sighted feedback often seen in static preference comparisons. In contrast to conventional PBRL techniques, this integration of 3D perception and future-oriented reasoning leads to significant gains in preference agreement rates, faster policy convergence, and robust generalization across unseen robotic environments. Our empirical results, spanning tasks such as robotic manipulation and autonomous navigation, highlight PRISM’s potential for real-world applications where precise spatial understanding and reliable long-term decision-making are critical. By bridging 3D geometric awareness with CoT-driven preference modeling, PRISM establishes a comprehensive foundation for scalable, human-aligned reinforcement learning.

arxiv情報

著者 Yirong Sun,Yanjun Chen
発行日 2025-03-13 08:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク