要約
汎化可能なアライメントは、大規模言語モデル(LLM)を実世界の自然言語処理アプリケーションに安全に導入するための中核的な課題である。人間のフィードバックからの強化学習(RLHF)を含む現在のアライメント手法は、暗黙的でその場限りのプリファレンスに依存しているため、学習分布外での制約充足を保証できないことが多い。チューニングの前にまずデータをキュレートするというパラダイムシフトに触発され、我々は安全な言語アライメントのための新しいフレームワークを導入する。タスク固有の報酬関数と潜在的な制約関数の両方を推論することから、我々のアプローチは、新しい安全要件への適応と、ドメインシフトや敵対的入力の下での頑健な汎化を促進する。我々はこのフレームワークを制約マルコフ決定過程(CMDP)の中で定式化し、テキストベースのナビゲーション環境を用いて検証し、変化する危険領域への安全な適応を実証する。我々の実験では、安全なナビゲーション経路に従うと、ドメインシフト時の違反が少ないことを示し、微調整技術として学習された制約を蒸留されたBERTモデルに適用することにより、違反ゼロを達成した。この研究は、実用的なNLP設定のための、セーフティクリティカルでより一般化可能なLLMを構築するための有望な道を提供する。
要約(オリジナル)
Generalizable alignment is a core challenge for deploying Large Language Models (LLMs) safely in real-world NLP applications. Current alignment methods, including Reinforcement Learning from Human Feedback (RLHF), often fail to guarantee constraint satisfaction outside their training distribution due to their reliance on implicit, post-hoc preferences. Inspired by a paradigm shift to first curate data before tuning, we introduce a new framework for safe language alignment that learns natural language constraints from positive and negative demonstrations as a primary step. From inferring both a task-specific reward function and latent constraint functions, our approach fosters adaptation to novel safety requirements and robust generalization under domain shifts and adversarial inputs. We formalize the framework within a Constrained Markov Decision Process (CMDP) and validate it via a text-based navigation environment, demonstrating safe adaptation to changing danger zones. Our experiments show fewer violations upon domain shift when following a safe navigation path, and we achieve zero violations by applying learned constraints to a distilled BERT model as a fine-tuning technique. This work offers a promising path toward building safety-critical and more generalizable LLMs for practical NLP settings.
arxiv情報
著者 | Jaymari Chua,Chen Wang,Lina Yao |
発行日 | 2025-04-04 05:26:28+00:00 |
arxivサイト | arxiv_id(pdf) |