要約
言語モデル(LMS)はますます幅広いアプリケーションに統合されていますが、最新の評価パラダイムは、それらが実際にどのように使用されているかを十分に反映していません。
現在の評価は、LMSが展開されている実際のコンテキストへの直接的な適用性を欠くベンチマークに依存しています。
このギャップに対処するために、粒状のコンテキスト依存の次元でLMSを評価するアプローチである次元およびコンテキスト評価(DICE)を提案します。
このポジションペーパーでは、既存のLMベンチマークの不十分さを調べ、実際のユースケースへの限られた適用性を強調することから始めます。
次に、さまざまなアプリケーションドメインにわたって利害関係者にとってより意味のあるLM動作の次元をキャプチャする一連の細い評価パラメーターを提案します。
具体的には、LMSを特定の設定に展開することを選択する利害関係者の特定のコンテキストの制約と要求に合わせなければならない、堅牢性、一貫性、認識論的誠実さなど、コンテキストに依存しないパラメーターの概念を紹介します。
次に、この評価フレームワークを運用するための潜在的なアプローチについて議論し、LM評価環境にDICEが提示する機会と課題で終了します。
最終的に、この作業は、LMSのコンテキスト固有で利害関係者に関連する評価のための実用的で親しみやすい出発点として機能します。
要約(オリジナル)
Language models (LMs) are increasingly being integrated into a wide range of applications, yet the modern evaluation paradigm does not sufficiently reflect how they are actually being used. Current evaluations rely on benchmarks that often lack direct applicability to the real-world contexts in which LMs are being deployed. To address this gap, we propose Dimensional and Contextual Evaluation (DICE), an approach that evaluates LMs on granular, context-dependent dimensions. In this position paper, we begin by examining the insufficiency of existing LM benchmarks, highlighting their limited applicability to real-world use cases. Next, we propose a set of granular evaluation parameters that capture dimensions of LM behavior that are more meaningful to stakeholders across a variety of application domains. Specifically, we introduce the concept of context-agnostic parameters – such as robustness, coherence, and epistemic honesty – and context-specific parameters that must be tailored to the specific contextual constraints and demands of stakeholders choosing to deploy LMs into a particular setting. We then discuss potential approaches to operationalize this evaluation framework, finishing with the opportunities and challenges DICE presents to the LM evaluation landscape. Ultimately, this work serves as a practical and approachable starting point for context-specific and stakeholder-relevant evaluation of LMs.
arxiv情報
著者 | Aryan Shrivastava,Paula Akemi Aoyagui |
発行日 | 2025-04-14 16:08:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google