要約
Aspect Sentiment Quadruple Prediction(ASQP)は、各意見の意見用語、アスペクト用語、アスペクトカテゴリ、およびセンチメントの極性を特定することにより、テキストで表明された意見の詳細な理解を促進します。
ただし、ASQPのモデルを微調整するためのトレーニング例の完全なセットに注釈を付けることは、リソース集約型プロセスです。
この研究では、5つの多様なデータセットにわたってASQPタスクでゼロおよび少ないショット学習のための大規模な言語モデル(LLMS)の機能を調査します。
F1スコアは、最先端の微調整モデルで得られたものをわずかに下回っていますが、以前に報告されたゼロおよび少数のショットパフォーマンスを超えています。
REST16レストランドメインデータセットの40ショット設定では、LLMSは52.46のF1スコアを達成しましたが、最高のパフォーマンスの微調整方法MVPによって60.39と比較して達成されました。
さらに、ターゲットアスペクトセンチメント検出(TASD)でのLLMSのパフォーマンスを報告します。F1スコアも微調整されたモデルに近く、MVPの72.76と比較して、40ショット設定でREST 16で66.03を達成しました。
人間のアノテーターは最適なパフォーマンスを達成するために不可欠なままですが、LLMはASQPタスクでの広範な手動注釈の必要性を減らすことができます。
要約(オリジナル)
Aspect sentiment quadruple prediction (ASQP) facilitates a detailed understanding of opinions expressed in a text by identifying the opinion term, aspect term, aspect category and sentiment polarity for each opinion. However, annotating a full set of training examples to fine-tune models for ASQP is a resource-intensive process. In this study, we explore the capabilities of large language models (LLMs) for zero- and few-shot learning on the ASQP task across five diverse datasets. We report F1 scores slightly below those obtained with state-of-the-art fine-tuned models but exceeding previously reported zero- and few-shot performance. In the 40-shot setting on the Rest16 restaurant domain dataset, LLMs achieved an F1 score of 52.46, compared to 60.39 by the best-performing fine-tuned method MVP. Additionally, we report the performance of LLMs in target aspect sentiment detection (TASD), where the F1 scores were also close to fine-tuned models, achieving 66.03 on Rest16 in the 40-shot setting, compared to 72.76 with MVP. While human annotators remain essential for achieving optimal performance, LLMs can reduce the need for extensive manual annotation in ASQP tasks.
arxiv情報
著者 | Nils Constantin Hellwig,Jakob Fehle,Udo Kruschwitz,Christian Wolff |
発行日 | 2025-02-18 16:56:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google