Sentiment Analysis through LLM Negotiations

要約

センチメント分析の標準的なパラダイムは、単一のLLMに依存し、文脈内学習のフレームワークの下で1回のラウンドで決定を下すことである。このフレームワークは、人間が物事を正しく理解するために複数回の試行が必要な場合があるように、単一のLLMによって生成された1ターンの出力が完璧な決定を提供しない可能性があるという重要な欠点がある。これは特に、入力に含まれる複雑な言語現象(例えば節構成、皮肉など)に対処するために深い推論が必要とされる、感情分析のタスクに当てはまる。 この問題に対処するため、本論文ではセンチメント分析のためのマルチLLMネゴシエーションフレームワークを紹介する。このフレームワークは、根拠とともに判断を提供する推論を組み込んだ生成器と、生成器の信頼性を評価する説明を導出する識別器から構成される。生成器と識別器はコンセンサスに達するまで反復する。提案されたフレームワークは、2つのLLMの相補的な能力を利用することができ、修正するために互いに説得するために根拠を利用させることができるので、前述の課題に自然に対処している。 広範なセンチメント分析ベンチマーク(SST-2、映画レビュー、Twitter、yelp、amazon、IMDB)を用いた実験により、提案アプローチの有効性が実証された:全てのベンチマークにおいて、ICLベースラインよりも一貫して良い性能が得られ、Twitterと映画レビューデータセットでは教師ありベースラインよりも優れた性能さえ得られた。

要約(オリジナル)

A standard paradigm for sentiment analysis is to rely on a singular LLM and makes the decision in a single round under the framework of in-context learning. This framework suffers the key disadvantage that the single-turn output generated by a single LLM might not deliver the perfect decision, just as humans sometimes need multiple attempts to get things right. This is especially true for the task of sentiment analysis where deep reasoning is required to address the complex linguistic phenomenon (e.g., clause composition, irony, etc) in the input. To address this issue, this paper introduces a multi-LLM negotiation framework for sentiment analysis. The framework consists of a reasoning-infused generator to provide decision along with rationale, a explanation-deriving discriminator to evaluate the credibility of the generator. The generator and the discriminator iterate until a consensus is reached. The proposed framework naturally addressed the aforementioned challenge, as we are able to take the complementary abilities of two LLMs, have them use rationale to persuade each other for correction. Experiments on a wide range of sentiment analysis benchmarks (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) demonstrate the effectiveness of proposed approach: it consistently yields better performances than the ICL baseline across all benchmarks, and even superior performances to supervised baselines on the Twitter and movie review datasets.

arxiv情報

著者 Xiaofei Sun,Xiaoya Li,Shengyu Zhang,Shuhe Wang,Fei Wu,Jiwei Li,Tianwei Zhang,Guoyin Wang
発行日 2023-11-03 12:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク