Assessing Large Language Models on Climate Information

要約

気候変動が私たちにどのような影響を与えるかを理解し、利用可能な解決策について学ぶことは、個人やコミュニティが気候変動を緩和し適応できるようにするための重要なステップです。
大規模言語モデル (LLM) の人気が高まるにつれて、この領域における LLM の機能を評価する必要があります。
この研究では、気候変動のトピックに対するLLMの反応を分析するための、科学コミュニケーションの原則に基づいた包括的な評価フレームワークを提示します。
私たちのフレームワークは、回答の表現的妥当性と認識論的妥当性の両方を強調し、LLM 世代のきめ細かい分析を提供します。
8 つの次元にまたがる私たちのフレームワークは、モデル出力内の最大 30 の個別の問題を識別します。
このタスクは、AI が人間のパフォーマンスを補完し、向上させることができる、増え続ける困難な問題の実例です。
AI 支援を使用し、関連する学歴を持つ評価者に依存する、スケーラブルな監視のための斬新で実用的なプロトコルを紹介します。
私たちはいくつかの最近の LLM を評価し、結果の包括的な分析を実施し、気候コミュニケーションの分野における LLM の可能性と限界の両方に光を当てます。

要約(オリジナル)

Understanding how climate change affects us and learning about available solutions are key steps toward empowering individuals and communities to mitigate and adapt to it. As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in this domain. In this study, we present a comprehensive evaluation framework, grounded in science communication principles, to analyze LLM responses to climate change topics. Our framework emphasizes both the presentational and epistemological adequacy of answers, offering a fine-grained analysis of LLM generations. Spanning 8 dimensions, our framework discerns up to 30 distinct issues in model outputs. The task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel and practical protocol for scalable oversight that uses AI Assistance and relies on raters with relevant educational backgrounds. We evaluate several recent LLMs and conduct a comprehensive analysis of the results, shedding light on both the potential and the limitations of LLMs in the realm of climate communication.

arxiv情報

著者 Jannis Bulian,Mike S. Schäfer,Afra Amini,Heidi Lam,Massimiliano Ciaramita,Ben Gaiarin,Michelle Chen Huebscher,Christian Buck,Niels Mede,Markus Leippold,Nadine Strauss
発行日 2023-10-04 16:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク