要約
大規模言語モデル (LLM) の人気が高まるにつれて、重要な関連ドメインにおける LLM の機能を評価する必要があります。
私たちは、気候変動に関する質問に対する LLM の反応を評価するための、科学コミュニケーション研究に基づいた包括的な評価フレームワークを提示します。
私たちのフレームワークは、表現上の妥当性と認識論的な妥当性の両方を強調し、8 つの次元と 30 の問題にわたる LLM 世代のきめ細かい分析を提供します。
私たちの評価タスクは、AI が人間のパフォーマンスを補完し、向上させることができる、増え続ける困難な問題の実例です。
AI 支援と関連教育を受けた評価者に依存した、スケーラブルな監視のための新しいプロトコルを導入します。
私たちは一連の多様な気候問題に関して、最近の LLM をいくつか評価します。
私たちの結果は、気候コミュニケーションの領域におけるLLMの表面的な性質と認識論的な性質の間に大きなギャップがあることを示しています。
要約(オリジナル)
As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in critically relevant domains. We present a comprehensive evaluation framework, grounded in science communication research, to assess LLM responses to questions about climate change. Our framework emphasizes both presentational and epistemological adequacy, offering a fine-grained analysis of LLM generations spanning 8 dimensions and 30 issues. Our evaluation task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel protocol for scalable oversight that relies on AI Assistance and raters with relevant education. We evaluate several recent LLMs on a set of diverse climate questions. Our results point to a significant gap between surface and epistemological qualities of LLMs in the realm of climate communication.
arxiv情報
| 著者 | Jannis Bulian,Mike S. Schäfer,Afra Amini,Heidi Lam,Massimiliano Ciaramita,Ben Gaiarin,Michelle Chen Hübscher,Christian Buck,Niels G. Mede,Markus Leippold,Nadine Strauß | 
| 発行日 | 2024-05-28 15:36:49+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
