A Comprehensive Evaluation of Large Language Models on Aspect-Based Sentiment Analysis

要約

近年、大規模言語モデル(Large Language Models: LLM)が自然言語処理の分野で注目を集めており、強力な推論・生成能力によって多くの下流タスクに革命をもたらしている。例えば、In-Context Learning (ICL)は、ファインチューニング不要のパラダイムを導入し、LLMがファインチューニングなしで類推学習により下流タスクを実行することを可能にする。また、十分な学習データが存在するファインチューニング依存のパラダイムでは、費用対効果の高い手法であるパラメータ効率的ファインチューニング(PEFT)により、LLMは完全なファインチューニングに匹敵する優れた性能を達成することができる。 しかし、LLMが採用するこれらの魅力的な手法は、ABSA分野では十分に活用されていない。これまでの研究では、ランダムに選択した入出力ペアをICLのデモンストレーションとして用いるだけで、ABSAにおけるLLMを調査しており、不完全で表面的な評価に終わっている。本論文では、13のデータセット、8つのABSAサブタスク、および6つのLLMを含む、ABSA分野におけるLLMの包括的な評価に光を当てる。特に、「複数のパラダイムにおける複数のABSAサブタスクのための複数のLLM」を統一するための統一タスク定式化を設計する。ファインチューニング依存のパラダイムでは、命令ベースのマルチタスク学習を用いてLLMを効率的にファインチューニングする。ファインチューニングなしパラダイムでは、LLMの数発能力を刺激するための3つのデモンストレーション選択戦略を提案する。我々の広範な実験により、LLMはファインチューニング依存パラダイムにおいて、ファインチューニングされた小型言語モデル(SLM)と比較して最先端の性能を達成することが実証された。さらに重要なことに、SLMが有効でないファインチューニングなしのパラダイムでは、ICLを用いたLLMは依然として素晴らしい潜在能力を発揮し、いくつかのABSAサブタスクではファインチューニングされたSLMと競合することさえある。

要約(オリジナル)

Recently, Large Language Models (LLMs) have garnered increasing attention in the field of natural language processing, revolutionizing numerous downstream tasks with powerful reasoning and generation abilities. For example, In-Context Learning (ICL) introduces a fine-tuning-free paradigm, allowing out-of-the-box LLMs to execute downstream tasks by analogy learning without any fine-tuning. Besides, in a fine-tuning-dependent paradigm where substantial training data exists, Parameter-Efficient Fine-Tuning (PEFT), as the cost-effective methods, enable LLMs to achieve excellent performance comparable to full fine-tuning. However, these fascinating techniques employed by LLMs have not been fully exploited in the ABSA field. Previous works probe LLMs in ABSA by merely using randomly selected input-output pairs as demonstrations in ICL, resulting in an incomplete and superficial evaluation. In this paper, we shed light on a comprehensive evaluation of LLMs in the ABSA field, involving 13 datasets, 8 ABSA subtasks, and 6 LLMs. Specifically, we design a unified task formulation to unify “multiple LLMs for multiple ABSA subtasks in multiple paradigms.” For the fine-tuning-dependent paradigm, we efficiently fine-tune LLMs using instruction-based multi-task learning. For the fine-tuning-free paradigm, we propose 3 demonstration selection strategies to stimulate the few-shot abilities of LLMs. Our extensive experiments demonstrate that LLMs achieve a new state-of-the-art performance compared to fine-tuned Small Language Models (SLMs) in the fine-tuning-dependent paradigm. More importantly, in the fine-tuning-free paradigm where SLMs are ineffective, LLMs with ICL still showcase impressive potential and even compete with fine-tuned SLMs on some ABSA subtasks.

arxiv情報

著者 Changzhi Zhou,Dandan Song,Yuhang Tian,Zhijing Wu,Hao Wang,Xinyu Zhang,Jun Yang,Ziyi Yang,Shuhao Zhang
発行日 2024-12-03 08:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク