Strong and weak alignment of large language models with human values

要約

人間の監督なしで人工知能 (AI) システムが人間社会に及ぼす悪影響を最小限に抑えるには、人工知能 (AI) システムが人間の価値観と一致できる必要があります。
しかし、現在のほとんどの研究は、技術的な観点からこの問題にのみ対処しており、例えば、人間のフィードバックからの強化学習に依存して現在の方法を改善し、それが何を意味し、調整が行われるために必要であるかを無視しています。
ここでは、強い値のアライメントと弱い値のアライメントを区別することを提案します。
強力な調整には、エージェントの意図の理解と推論、および因果的に望ましい効果を生み出す能力などの認知能力 (人間に似ているか、人間とは異なる) が必要です。
これは、大規模言語モデル (LLM) のような AI システムが、人間の価値観が踏みにじられるリスクをもたらす状況を認識できるようにするために必要であると私たちは主張します。
この違いを説明するために、ChatGPT、Gemini、および Copilot がこれらの状況の一部を認識できないことを示す一連のプロンプトを示します。
さらに、単語の埋め込みを分析して、LLM 内の一部の人間の値の最近傍が人間の意味表現とは異なることを示します。
次に、ジョン・サールの有名な提案の延長で、「単語遷移辞書のある中国語の部屋」と呼ぶ新しい思考実験を提案します。
最後に、弱いアライメントに向けた現在の有望な研究の方向性について言及します。弱いアライメントは、多くの一般的な状況において統計的に満足のいく答えを生み出す可能性がありますが、今のところ真理値は保証されていません。

要約(オリジナル)

Minimizing negative impacts of Artificial Intelligent (AI) systems on human societies without human supervision requires them to be able to align with human values. However, most current work only addresses this issue from a technical point of view, e.g., improving current methods relying on reinforcement learning from human feedback, neglecting what it means and is required for alignment to occur. Here, we propose to distinguish strong and weak value alignment. Strong alignment requires cognitive abilities (either human-like or different from humans) such as understanding and reasoning about agents’ intentions and their ability to causally produce desired effects. We argue that this is required for AI systems like large language models (LLMs) to be able to recognize situations presenting a risk that human values may be flouted. To illustrate this distinction, we present a series of prompts showing ChatGPT’s, Gemini’s and Copilot’s failures to recognize some of these situations. We moreover analyze word embeddings to show that the nearest neighbors of some human values in LLMs differ from humans’ semantic representations. We then propose a new thought experiment that we call ‘the Chinese room with a word transition dictionary’, in extension of John Searle’s famous proposal. We finally mention current promising research directions towards a weak alignment, which could produce statistically satisfying answers in a number of common situations, however so far without ensuring any truth value.

arxiv情報

著者 Mehdi Khamassi,Marceau Nahon,Raja Chatila
発行日 2024-08-12 13:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク