Unpacking the Ethical Value Alignment in Big Models

要約

ビッグ モデルにより、情報やコンテンツを理解、生成、操作する AI の能力が大幅に向上し、多数のアプリケーションが可能になりました。
しかし、これらのモデルが日常生活にますます統合されるにつれて、それらに固有の倫理的価値観と潜在的な偏見が社会に予期せぬリスクをもたらします。
このペーパーでは、ビッグ モデルに関連するリスクと課題の概要を示し、既存の AI 倫理ガイドラインを調査し、これらのモデルの制限から生じる倫理的影響を検討します。
規範倫理の観点から、私たちは最近の規範ガイドラインの再評価を提案し、統一的かつ普遍的な AI 倫理枠組みを確立するための学界における協力的な取り組みの重要性を強調します。
さらに、道徳基盤理論を使用して現在の主流の LLM の道徳的傾向を調査し、既存の調整アルゴリズムを分析し、LLM 内の倫理的価値を調整する際に遭遇する独特の課題を概説します。
これらの課題に対処するために、我々は、ビッグモデルの倫理的価値を調整するための新しい概念的パラダイムを導入し、倫理的に調整された AI の学際的な構築に向けた最初のステップを表す、調整基準、評価、および方法に関する有望な研究の方向性について議論します。
私たちの中国語論文 https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553 の修正英語版は、中国語を母語としない人でも私たちの研究をよりよく理解できるようにすることを目的としています。

要約(オリジナル)

Big models have greatly advanced AI’s ability to understand, generate, and manipulate information and content, enabling numerous applications. However, as these models become increasingly integrated into everyday life, their inherent ethical values and potential biases pose unforeseen risks to society. This paper provides an overview of the risks and challenges associated with big models, surveys existing AI ethics guidelines, and examines the ethical implications arising from the limitations of these models. Taking a normative ethics perspective, we propose a reassessment of recent normative guidelines, highlighting the importance of collaborative efforts in academia to establish a unified and universal AI ethics framework. Furthermore, we investigate the moral inclinations of current mainstream LLMs using the Moral Foundation theory, analyze existing alignment algorithms, and outline the unique challenges encountered in aligning ethical values within them. To address these challenges, we introduce a novel conceptual paradigm for aligning the ethical values of big models and discuss promising research directions for alignment criteria, evaluation, and method, representing an initial step towards the interdisciplinary construction of the ethically aligned AI This paper is a modified English version of our Chinese paper https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553, intended to help non-Chinese native speakers better understand our work.

arxiv情報

著者 Xiaoyuan Yi,Jing Yao,Xiting Wang,Xing Xie
発行日 2023-10-26 16:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク