要約
このペーパーでは、攻撃的なコンテンツについて説明し、含まれています。
言語モデル(LMS)は、意思決定システムおよびインタラクティブなアシスタントとして使用されます。
しかし、これらのモデルは、特に社会的および道徳的規範に関して、判断を人間の価値観の多様性とどの程度整合していますか?
この作業では、LMSが人口統計グループ(例えば、性別、年齢、収入など)にわたって規範をどのように認識するかを調査します。
経験ルール(ロット)で11 LMSを促し、それらの出力を100のヒトアノテーターの既存の応答と比較します。
絶対距離アライメントメトリック(ADA-MET)を導入して、順序の質問のアライメントを定量化します。
LM応答には顕著な格差が見られ、若い、高所得層グループがより密接に整合し、疎外された視点の表現について懸念を引き起こします。
私たちの調査結果は、LMSを多様な人間の価値をより包括的にするためのさらなる努力の重要性を強調しています。
コードとプロンプトは、CC BY-NC 4.0ライセンスの下でGitHubで利用できます。
要約(オリジナル)
This paper discusses and contains offensive content. Language models (LMs) are used in decision-making systems and as interactive assistants. However, how well do these models making judgements align with the diversity of human values, particularly regarding social and moral norms? In this work, we investigate how inclusively LMs perceive norms across demographic groups (e.g., gender, age, and income). We prompt 11 LMs on rules-of-thumb (RoTs) and compare their outputs with the existing responses of 100 human annotators. We introduce the Absolute Distance Alignment Metric (ADA-Met) to quantify alignment on ordinal questions. We find notable disparities in LM responses, with younger, higher-income groups showing closer alignment, raising concerns about the representation of marginalized perspectives. Our findings highlight the importance of further efforts to make LMs more inclusive of diverse human values. The code and prompts are available on GitHub under the CC BY-NC 4.0 license.
arxiv情報
著者 | Michael Galarnyk,Agam Shah,Dipanwita Guhathakurta,Poojitha Nandigam,Sudheer Chava |
発行日 | 2025-04-16 17:32:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google