What are human values, and how do we align AI to them?

要約

AI システムを人間の価値観に合わせる必要があるというコンセンサスが生まれつつありますが (Gabriel, 2020; Ji et al., 2024)、これを実際に言語モデルにどのように適用するかは依然として不明です。
私たちは、「人間の価値観に合わせる」という問題を 3 つの部分に分割します。1 つ目は、人々から価値観を引き出すことです。
2 番目に、これらの値を調整して、ML モデルをトレーニングするための調整ターゲットを調整します。
そして 3 番目に、実際にモデルをトレーニングします。
この論文では、最初の 2 つの部分に焦点を当て、「価値に関する人間の多様な入力を言語モデルを調整するターゲットに統合するための「良い」方法は何でしょうか?」という質問をします。
この質問に答えるために、人間の価値観に従ってモデルの動作を形成するためにアライメント ターゲットが満たされる必要があると思われる一連の 6 つの基準を最初に定義します。
次に、道徳グラフ引き出し (MGE) と呼ばれる価値観を引き出し、調和させるためのプロセスを提案します。このプロセスでは、大規模な言語モデルを使用して、特定の状況における価値観について参加者にインタビューします。
私たちのアプローチは、Taylor (1977)、Chang (2004) などが提唱した価値観の哲学に触発されています。
私たちは、500人のアメリカ人の代表サンプルを対象に、意図的に意見を対立させる3つのプロンプト(中絶に関するアドバイスなど)に基づいてMGEを試験しました。
私たちの結果は、MGE が 6 つの基準すべてにわたってモデルの整合性を向上させるのに有望であることを示しています。
たとえば、ほぼすべての参加者 (89.1%) が、プロセスによってよく表現されていると感じ、(89%) は、たとえ自分たちの価値が最も賢明なものとして投票されなかったとしても、最終的な道徳グラフは公正であると考えました。
私たちのプロセスでは、誰が専門家とみなされるかを事前に定義することなく、「専門家」の価値観(たとえば、中絶のアドバイスを求めた女性の価値観)が道徳グラフのトップに上がることがよくあります。

要約(オリジナル)

There is an emerging consensus that we need to align AI systems with human values (Gabriel, 2020; Ji et al., 2024), but it remains unclear how to apply this to language models in practice. We split the problem of ‘aligning to human values’ into three parts: first, eliciting values from people; second, reconciling those values into an alignment target for training ML models; and third, actually training the model. In this paper, we focus on the first two parts, and ask the question: what are ‘good’ ways to synthesize diverse human inputs about values into a target for aligning language models? To answer this question, we first define a set of 6 criteria that we believe must be satisfied for an alignment target to shape model behavior in accordance with human values. We then propose a process for eliciting and reconciling values called Moral Graph Elicitation (MGE), which uses a large language model to interview participants about their values in particular contexts; our approach is inspired by the philosophy of values advanced by Taylor (1977), Chang (2004), and others. We trial MGE with a representative sample of 500 Americans, on 3 intentionally divisive prompts (e.g. advice about abortion). Our results demonstrate that MGE is promising for improving model alignment across all 6 criteria. For example, almost all participants (89.1%) felt well represented by the process, and (89%) thought the final moral graph was fair, even if their value wasn’t voted as the wisest. Our process often results in ‘expert’ values (e.g. values from women who have solicited abortion advice) rising to the top of the moral graph, without defining who is considered an expert in advance.

arxiv情報

著者 Oliver Klingefjord,Ryan Lowe,Joe Edelman
発行日 2024-04-17 16:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG パーマリンク