Assessing how hyperparameters impact Large Language Models’ sarcasm detection performance

要約

皮肉の検出は、人間と機械の両方にとって困難です。
この作業では、モデルの特性がOpenaiのGPTの皮肉検出にどのように影響し、MetaのLlama-2モデルが強い自然言語の理解と人気を与えられていることを探ります。
さまざまなサイズ、リリース、およびハイパーパラメーターにわたる微調整モデルとゼロショットモデルを評価します。
実験は、人気のある自己注釈のredditコーパス(SARC2.0)の皮肉データセットの政治的およびバランスのとれた(ポルバル)部分で実施されました。
微調整されたパフォーマンスは、モデルファミリ内のモデルサイズで単調に向上しますが、ハイパーパラメーターのチューニングもパフォーマンスに影響します。
微調整シナリオでは、完全な精度のllama-2-13bは、最先端の精度と$ f_1 $ scoreを達成します。
ゼロショット設定では、1つのGPT-4モデルが以前の試みに対して競争力のあるパフォーマンスを達成し、0.70の精度と0.75の$ F_1 $スコアをもたらします。
さらに、モデルのパフォーマンスはリリースごとに増加または低下する可能性があり、リリースごとにパフォーマンスを再評価する必要性を強調します。

要約(オリジナル)

Sarcasm detection is challenging for both humans and machines. This work explores how model characteristics impact sarcasm detection in OpenAI’s GPT, and Meta’s Llama-2 models, given their strong natural language understanding, and popularity. We evaluate fine-tuned and zero-shot models across various sizes, releases, and hyperparameters. Experiments were conducted on the political and balanced (pol-bal) portion of the popular Self-Annotated Reddit Corpus (SARC2.0) sarcasm dataset. Fine-tuned performance improves monotonically with model size within a model family, while hyperparameter tuning also impacts performance. In the fine-tuning scenario, full precision Llama-2-13b achieves state-of-the-art accuracy and $F_1$-score, both measured at 0.83, comparable to average human performance. In the zero-shot setting, one GPT-4 model achieves competitive performance to prior attempts, yielding an accuracy of 0.70 and an $F_1$-score of 0.75. Furthermore, a model’s performance may increase or decline with each release, highlighting the need to reassess performance after each release.

arxiv情報

著者 Montgomery Gole,Andriy Miranskyy
発行日 2025-04-08 16:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク