要約
現在の共感の概念の曖昧な定義に基づいた共感の運用化を批判する文献が増えています。
このような定義は、データセットの品質、モデルの堅牢性、評価の信頼性に悪影響を及ぼします。
私たちは、共感をその心理的起源に近いところで操作できる共感評価フレームワークを提案します。
このフレームワークは、共感と感情価に関する既存の指標を使用して、プロンプトに対する LLM の反応の差異を測定します。
この差異は、状況理解に影響を与えるさまざまな社会的バイアスによるプロンプトの制御された生成を通じて導入され、共感的な理解に影響を与えます。
生成の制御により、プロンプト データセット内の構成の高い理論的妥当性が保証されます。
また、特にスラブ語族など、現在共感や偏見を評価する方法がほとんどまたはまったくない言語への高品質の翻訳がより扱いやすくなります。
選択した LLM とさまざまなプロンプト タイプを使用して、多肢選択回答や自由生成を含むフレームワークによる共感評価を実証します。
私たちの最初の評価サンプルの分散は小さく、異なる社会集団によって与えられた文脈における共感的理解間の説得力のある違いを測定することはできませんでした。
ただし、プロンプトの比較的微妙な変化を捉えるために必要な推論チェーンに大幅な変更がモデルで示されたため、結果は有望です。
これは、評価サンプルの構築と結果を測定するための統計的方法に関する将来の研究の基礎となります。
要約(オリジナル)
A growing amount of literature critiques the current operationalizations of empathy based on loose definitions of the construct. Such definitions negatively affect dataset quality, model robustness, and evaluation reliability. We propose an empathy evaluation framework that operationalizes empathy close to its psychological origins. The framework measures the variance in responses of LLMs to prompts using existing metrics for empathy and emotional valence. The variance is introduced through the controlled generation of the prompts by varying social biases affecting context understanding, thus impacting empathetic understanding. The control over generation ensures high theoretical validity of the constructs in the prompt dataset. Also, it makes high-quality translation, especially into languages that currently have little-to-no way of evaluating empathy or bias, such as the Slavonic family, more manageable. Using chosen LLMs and various prompt types, we demonstrate the empathy evaluation with the framework, including multiple-choice answers and free generation. The variance in our initial evaluation sample is small and we were unable to measure convincing differences between the empathetic understanding in contexts given by different social groups. However, the results are promising because the models showed significant alterations their reasoning chains needed to capture the relatively subtle changes in the prompts. This provides the basis for future research into the construction of the evaluation sample and statistical methods for measuring the results.
arxiv情報
著者 | Vojtech Formanek,Ondrej Sotolar |
発行日 | 2024-11-14 18:35:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google