Unlocking Transparent Alignment Through Enhanced Inverse Constitutional AI for Principle Extraction

要約

人間のフィードバック(RLHF)や直接選好最適化(DPO)からの強化学習など、大規模な言語モデル(LLM)を調整するための従来の方法は、暗黙の原則に依存し、解釈可能性を制限します。
憲法AI(CAI)は、モデル出力をガイドするための明示的なルールベースのフレームワークを提供します。
これに基づいて、優先データセットから憲法を抽出する逆憲法AI(ICAI)アルゴリズムを改良します。
原則の生成、クラスタリング、および埋め込みプロセスを改善することにより、当社のアプローチは、合成および実世界のデータセット全体で抽出された原理の精度と一般化可能性を高めます。
コンテキスト内アラインメントは控えめな改善をもたらしますが、我々の結果は、より透明で適応性のあるアライメント方法を促進するこれらの原則の可能性を強調し、従来の微調整を超えた将来の進歩に有望な方向性を提供します。

要約(オリジナル)

Traditional methods for aligning Large Language Models (LLMs), such as Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO), rely on implicit principles, limiting interpretability. Constitutional AI (CAI) offers an explicit, rule-based framework for guiding model outputs. Building on this, we refine the Inverse Constitutional AI (ICAI) algorithm, which extracts constitutions from preference datasets. By improving principle generation, clustering, and embedding processes, our approach enhances the accuracy and generalizability of extracted principles across synthetic and real-world datasets. While in-context alignment yields modest improvements, our results highlight the potential of these principles to foster more transparent and adaptable alignment methods, offering a promising direction for future advancements beyond traditional fine-tuning.

arxiv情報

著者 Carl-Leander Henneking,Claas Beger
発行日 2025-01-28 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク