要約
経験的な人間とaiの調整は、観察された人間の行動に沿ってAIシステムを行動することを目的としています。
ノーブルの目標はありますが、経験的アライメントは、注意を必要とする統計的バイアスを誤って導入できると主張します。
したがって、このポジションペーパーは、基本的な経験的アライメントに対して主張し、代替として規範的なアライメントと事後の経験的アライメントを提供します。
私たちは、言語モデルの人間中心のデコードなどの有形の例によって、原則的な議論を実証します。
要約(オリジナル)
Empirical human-AI alignment aims to make AI systems act in line with observed human behavior. While noble in its goals, we argue that empirical alignment can inadvertently introduce statistical biases that warrant caution. This position paper thus advocates against naive empirical alignment, offering prescriptive alignment and a posteriori empirical alignment as alternatives. We substantiate our principled argument by tangible examples like human-centric decoding of language models.
arxiv情報
著者 | Julian Rodemann,Esteban Garces Arias,Christoph Luther,Christoph Jansen,Thomas Augustin |
発行日 | 2025-05-12 09:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google