Value Profiles for Encoding Human Variation

要約

評価タスクにおける人間の変動のモデリングは、パーソナライズ、多元的モデルアライメント、および計算社会科学のためにAIシステムを有効にするために重要です。
値プロファイルを使用して個人を表現することを提案します – コンテキスト内デモンストレーションから圧縮された根本的な値の自然言語の説明と、バリュープロファイルまたはその他の評価者情報を条件付けた評価を推定する操縦可能なデコーダーモデルを提案します。
評価者表現の予測情報を測定するために、情報理論的方法論を紹介します。
デモンストレーションにはほとんどの情報が含まれており、その後に値プロファイル、その後人口統計が含まれていることがわかります。
ただし、バリュープロファイルは、圧縮された自然言語形式による精査、解釈可能性、および操縦性の点で利点を提供します。
値プロファイルは、デモンストレーションから有用な情報を効果的に圧縮します(> 70%の情報保存)。
さらに、同様に動作する個人を識別するためのクラスタリング値プロファイルは、最も予測的な人口統計グループよりも評価者の変動をよりよく説明します。
テストセットのパフォーマンスを超えて、デコーダーモデルはセマンティックプロファイルの違いに応じて評価を解釈的に変更し、適切に調整されており、アノテーター集団をシミュレートすることによりインスタンスレベルの意見の不一致を説明するのに役立つことが示されます。
これらの結果は、バリュープロファイルが、人口統計やグループ情報を超えた個々のバリエーションを記述する斬新で予測的な方法を提供することを示しています。

要約(オリジナル)

Modelling human variation in rating tasks is crucial for enabling AI systems for personalization, pluralistic model alignment, and computational social science. We propose representing individuals using value profiles — natural language descriptions of underlying values compressed from in-context demonstrations — along with a steerable decoder model to estimate ratings conditioned on a value profile or other rater information. To measure the predictive information in rater representations, we introduce an information-theoretic methodology. We find that demonstrations contain the most information, followed by value profiles and then demographics. However, value profiles offer advantages in terms of scrutability, interpretability, and steerability due to their compressed natural language format. Value profiles effectively compress the useful information from demonstrations (>70% information preservation). Furthermore, clustering value profiles to identify similarly behaving individuals better explains rater variation than the most predictive demographic groupings. Going beyond test set performance, we show that the decoder models interpretably change ratings according to semantic profile differences, are well-calibrated, and can help explain instance-level disagreement by simulating an annotator population. These results demonstrate that value profiles offer novel, predictive ways to describe individual variation beyond demographics or group information.

arxiv情報

著者 Taylor Sorensen,Pushkar Mishra,Roma Patel,Michael Henry Tessler,Michiel Bakker,Georgina Evans,Iason Gabriel,Noah Goodman,Verena Rieser
発行日 2025-03-19 17:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク