要約
気候変動は深刻な課題を引き起こしており、幅広い理解と低炭素ライフスタイルの意識が求められています。
大規模言語モデル (LLM) は、この危機に対処するための強力なツールを提供しますが、気候危機に関する知識の包括的な評価が不足しています。
この論文は、LLM 内の気候危機の知識を評価するための自動評価フレームワークを提案します。
私たちは、データ合成と手動収集を組み合わせたハイブリッドアプローチをデータ収集に採用し、気候変動のさまざまな側面を含む多様な質問をまとめます。
収集された質問に基づくプロンプトエンジニアリングを利用して、生成された回答を分析することでモデルの知識を評価します。
さらに、気候危機の知識を評価するための、10 の異なる観点からの指標を含む包括的な指標セットを紹介します。
これらの指標は多面的な評価を提供し、LLM の気候危機に対する理解の微妙な理解を可能にします。
実験結果は、提案した方法の有効性を示しています。
さまざまな高性能 LLM を利用した評価において、LLM は気候関連のかなりの知識を持っているものの、適時性の点で欠点があることが判明し、気候関連コンテンツの継続的な更新と改良の必要性が示されました。
要約(オリジナル)
Climate change poses grave challenges, demanding widespread understanding and low-carbon lifestyle awareness. Large language models (LLMs) offer a powerful tool to address this crisis, yet comprehensive evaluations of their climate-crisis knowledge are lacking. This paper proposes an automated evaluation framework to assess climate-crisis knowledge within LLMs. We adopt a hybrid approach for data acquisition, combining data synthesis and manual collection, to compile a diverse set of questions encompassing various aspects of climate change. Utilizing prompt engineering based on the compiled questions, we evaluate the model’s knowledge by analyzing its generated answers. Furthermore, we introduce a comprehensive set of metrics to assess climate-crisis knowledge, encompassing indicators from 10 distinct perspectives. These metrics provide a multifaceted evaluation, enabling a nuanced understanding of the LLMs’ climate crisis comprehension. The experimental results demonstrate the efficacy of our proposed method. In our evaluation utilizing diverse high-performing LLMs, we discovered that while LLMs possess considerable climate-related knowledge, there are shortcomings in terms of timeliness, indicating a need for continuous updating and refinement of their climate-related content.
arxiv情報
著者 | Hongyin Zhu,Prayag Tiwari |
発行日 | 2024-07-01 10:40:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google