Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI

要約

生成AI(GENAI)システムの評価は、公共政策と意思決定において重要な役割を果たしますが、既存の方法は、不確実性とより広範な社会的影響を捉えることができないベンチマーク主導のポイント推定の比較に依存することによって制限されることがよくあります。
このペーパーでは、これらの課題に対処するための原則的な枠組みとしてベイジアン統計を使用することについて主張しています。
ベイジアンの方法により、以前の誘発を通じてドメインの専門知識を統合し、新しいデータから継続的な学習を可能にし、事後推論を介して堅牢な不確実性の定量化を提供します。
特に利害関係者の視点を組み込んで、公平性、透明性、信頼性を高めるために、ベイジアンの推論をGenai評価に適用する方法を示します。
さらに、モデルの検証と改良のための反復プロセスとしてベイジアンワークフローについて説明し、動的で実世界のコンテキストでのGENAIシステムの堅牢な評価を確保します。

要約(オリジナル)

The evaluation of Generative AI (GenAI) systems plays a critical role in public policy and decision-making, yet existing methods are often limited by reliance on benchmark-driven, point-estimate comparisons that fail to capture uncertainty and broader societal impacts. This paper argues for the use of Bayesian statistics as a principled framework to address these challenges. Bayesian methods enable the integration of domain expertise through prior elicitation, allow for continuous learning from new data, and provide robust uncertainty quantification via posterior inference. We demonstrate how Bayesian inference can be applied to GenAI evaluation, particularly in incorporating stakeholder perspectives to enhance fairness, transparency, and reliability. Furthermore, we discuss Bayesian workflows as an iterative process for model validation and refinement, ensuring robust assessments of GenAI systems in dynamic, real-world contexts.

arxiv情報

著者 Yanan Long
発行日 2025-04-21 16:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.AP パーマリンク