要約
このペーパーでは、3枝の政府システムに触発された、大規模な言語モデル(LLMS)の倫理的整合のためのチェックとバランスのフレームワークを紹介します。
それは、3つの独立しているが相互作用するコンポーネントを実装します。LLMSは、知識生成の行政機関としてのLLMS、倫理的ガードレールを確立する立法部門としての潜水、および文脈的解釈の司法支部としてのERIを実装しています。
構造的分離を超えて、基本的な課題に対処します。行動を形成するために感情を調節します。
感情的な反応を管理することが有害な行動を妨げる心理理論から描画すると、感情を言語行動にマッピングする自己監視学習パイプラインを開発し、感情的条件付けを通じて正確な行動変調を可能にします。
このアプローチを敵対的なテストと統合することにより、私たちのフレームワークは、知識の生成、倫理的監視、文脈的解釈を通じて独立を維持しながら、DikeとERISが倫理的結果に言語的行動をどのように指示するかを示しています。
要約(オリジナル)
This paper introduces a checks-and-balances framework for ethical alignment of Large Language Models (LLMs), inspired by three-branch governmental systems. It implements three independent yet interacting components: LLMs as the executive branch for knowledge generation, DIKE as the legislative branch establishing ethical guardrails, and ERIS as the judicial branch for contextual interpretation. Beyond structural separation, we address a fundamental challenge: regulating emotion to shape behaviors. Drawing from psychological theories where managing emotional responses prevents harmful behaviors, we develop a self-supervised learning pipeline that maps emotions to linguistic behaviors, enabling precise behavioral modulation through emotional conditioning. By integrating this approach with adversarial testing, our framework demonstrates how DIKE and ERIS direct linguistic behaviors toward ethical outcomes while preserving independence throughout knowledge generation, ethical oversight, and contextual interpretation.
arxiv情報
著者 | Edward Y. Chang |
発行日 | 2025-05-26 15:10:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google