要約
道徳的な判断を下すことは、倫理的な AI システムの開発に不可欠なステップです。
一般的なアプローチは、ほとんどがボトムアップ方式で実装されており、道徳に関するクラウドソースの意見に基づいて、注釈付きの大規模なデータセットを使用してモデルをトレーニングします。
これらのアプローチは、限られたグループのアノテーターの道徳的立場を過度に一般化する可能性があり、説明可能性に欠けているとして批判されています。
対照的に、トップダウンのアプローチでは、一連の原則に基づいて道徳的判断が下されます。
しかし、以前の言語モデルの無能さと道徳原則間の未解決の議論のため、それは概念的なままです。
この研究では、学際的な研究から得られた確立された道徳理論を使用して道徳的推論を実行するように大規模言語モデル (LLM) を操作するための柔軟なフレームワークを提案します。
理論に基づいたトップダウンの枠組みには、さまざまな道徳理論を組み込むことができます。
私たちの実験は、道徳理論に由来するデータセットに対する提案されたフレームワークの有効性を実証しています。
さらに、さまざまな道徳理論と既存の道徳データセット間の整合性を示します。
私たちの分析は、説明可能な道徳的判断システムを開発する際の既存のリソース (モデルとデータセット) の可能性と欠陥を示しています。
要約(オリジナル)
Making moral judgments is an essential step toward developing ethical AI systems. Prevalent approaches are mostly implemented in a bottom-up manner, which uses a large set of annotated data to train models based on crowd-sourced opinions about morality. These approaches have been criticized for potentially overgeneralizing a limited group of annotators’ moral stances and lacking explainability. In contrast, top-down approaches make moral judgments grounded in a set of principles. However, it remains conceptual due to the incapability of previous language models and the unsolved debate among moral principles. In this study, we propose a flexible framework to steer Large Language Models (LLMs) to perform moral reasoning with well-established moral theories from interdisciplinary research. The theory-guided top-down framework can incorporate various moral theories. Our experiments demonstrate the effectiveness of the proposed framework on datasets derived from moral theories. Furthermore, we show the alignment between different moral theories and existing morality datasets. Our analysis exhibits the potentials and flaws in existing resources (models and datasets) in developing explainable moral judgment-making systems.
arxiv情報
著者 | Jingyan Zhou,Minda Hu,Junan Li,Xiaoying Zhang,Xixin Wu,Irwin King,Helen Meng |
発行日 | 2023-08-29 15:57:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google