Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain

要約

このペーパーでは、気候変動 (CC) と環境ドメイン内の 3 つの異なる分類タスクにわたって、2 つの大規模言語モデル (LLM)、GPT3.5 と Llama2、および 1 つの小言語モデル (SLM) Gemma のパフォーマンスを検証します。
BERT ベースのモデルをベースラインとして採用し、その有効性をこれらの変圧器ベースのモデルと比較します。
さらに、これらのテキスト分類タスクにおける言語化された信頼スコアの調整を分析することにより、モデルの自己評価機能を評価します。
私たちの調査結果では、BERT ベースのモデルは一般的に LLM と SLM の両方よりも優れたパフォーマンスを示しますが、大規模な生成モデルのパフォーマンスは依然として注目に値することが明らかになりました。
さらに、私たちのキャリブレーション分析により、Gemma は初期タスクでは適切にキャリブレーションされているものの、その後は一貫性のない結果が生成されることが明らかになりました。
Llama は適切に校正されており、GPT は一貫して強力な校正を示しています。
この研究を通じて、私たちは、地球の最も緊急な問題のいくつかに対処する上での生成的 LM の有用性と有効性に関する進行中の議論に貢献し、生態学と CC の文脈における生成的 LM の強みと限界を強調することを目指しています。

要約(オリジナル)

This paper examines the performance of two Large Language Models (LLMs), GPT3.5 and Llama2 and one Small Language Model (SLM) Gemma, across three different classification tasks within the climate change (CC) and environmental domain. Employing BERT-based models as a baseline, we compare their efficacy against these transformer-based models. Additionally, we assess the models’ self-evaluation capabilities by analyzing the calibration of verbalized confidence scores in these text classification tasks. Our findings reveal that while BERT-based models generally outperform both the LLMs and SLM, the performance of the large generative models is still noteworthy. Furthermore, our calibration analysis reveals that although Gemma is well-calibrated in initial tasks, it thereafter produces inconsistent results; Llama is reasonably calibrated, and GPT consistently exhibits strong calibration. Through this research, we aim to contribute to the ongoing discussion on the utility and effectiveness of generative LMs in addressing some of the planet’s most urgent issues, highlighting their strengths and limitations in the context of ecology and CC.

arxiv情報

著者 Francesca Grasso,Stefano Locci
発行日 2024-08-30 15:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク