要約
価値観に合わせた AI エージェントの開発は複雑な作業であり、AI 分野における継続的な課題です。
特に大規模言語モデル (LLM) の領域内では、それぞれが異なる道徳的価値観に合わせて個別にトレーニングされた複数の対話エージェントを、複数の道徳的価値観に適応して調整できる統合システムに統合する機能が最も重要です。
この論文では、文脈上の集約に基づいて文脈上の道徳的価値の調整を行うシステムを提案します。
ここで、集約は、ユーザーの入力から抽出された特徴を考慮して、ユーザーの入力に応答するのに最適な LLM 応答のサブセットを統合するプロセスとして定義されます。
提案されたシステムは、人間の価値観との整合性という点で、最新技術と比較して優れた結果を示しています。
要約(オリジナル)
Developing value-aligned AI agents is a complex undertaking and an ongoing challenge in the field of AI. Specifically within the domain of Large Language Models (LLMs), the capability to consolidate multiple independently trained dialogue agents, each aligned with a distinct moral value, into a unified system that can adapt to and be aligned with multiple moral values is of paramount importance. In this paper, we propose a system that does contextual moral value alignment based on contextual aggregation. Here, aggregation is defined as the process of integrating a subset of LLM responses that are best suited to respond to a user input, taking into account features extracted from the user’s input. The proposed system shows better results in term of alignment to human value compared to the state of the art.
arxiv情報
著者 | Pierre Dognin,Jesus Rios,Ronny Luss,Inkit Padhi,Matthew D Riemer,Miao Liu,Prasanna Sattigeri,Manish Nagireddy,Kush R. Varshney,Djallel Bouneffouf |
発行日 | 2024-03-19 15:06:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google