要約
大規模な言語モデル(LLM)は、印象的な道徳的推論能力を示しています。
しかし、彼らはしばしば複雑で多要因の道徳的ジレンマに直面したときに分岐します。
これらの矛盾に対処するために、複数のLLMの道徳的判断を総合的に定式化された道徳的判断に統合するフレームワークを提案し、このコンセンサスから大きく逸脱するモデルを再編成します。
私たちの集約メカニズムは、継続的な道徳的許容性スコア(バイナリラベルを超えて)を集合的な確率に融合し、モデルの信頼性による重みの寄与を融合します。
誤ったモデルの場合、ターゲットを絞った埋め込み最適化手順道徳的哲学理論のための微調整トークン埋め込み、意味の完全性を維持しながらJSの相違を最小限に抑えます。
大規模な社会的道徳的ジレンマデータセットの実験は、私たちのアプローチが堅牢なコンセンサスを構築し、個々のモデルの忠実度を向上させることを示しています。
これらの調査結果は、複数のモデルにわたるデータ駆動型の道徳的整合の価値と、より安全でより一貫したAIシステムの可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) have shown impressive moral reasoning abilities. Yet they often diverge when confronted with complex, multi-factor moral dilemmas. To address these discrepancies, we propose a framework that synthesizes multiple LLMs’ moral judgments into a collectively formulated moral judgment, realigning models that deviate significantly from this consensus. Our aggregation mechanism fuses continuous moral acceptability scores (beyond binary labels) into a collective probability, weighting contributions by model reliability. For misaligned models, a targeted embedding-optimization procedure fine-tunes token embeddings for moral philosophical theories, minimizing JS divergence to the consensus while preserving semantic integrity. Experiments on a large-scale social moral dilemma dataset show our approach builds robust consensus and improves individual model fidelity. These findings highlight the value of data-driven moral alignment across multiple models and its potential for safer, more consistent AI systems.
arxiv情報
著者 | Chenchen Yuan,Zheyu Zhang,Shuo Yang,Bardh Prenkaj,Gjergji Kasneci |
発行日 | 2025-06-17 15:22:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google