Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models

要約

感情分析は自然言語処理 (NLP) 内で広く研究されている領域であり、自動化ソリューションの出現により大きな関心を集めています。
それにもかかわらず、言語固有の複雑さと感情の主観的な性質により、この課題は依然として困難です。
リトアニア語など、あまり研究されておらず、リソースも少ない言語ではさらに困難です。
既存のリトアニアの NLP 研究をレビューしたところ、従来の機械学習手法と分類アルゴリズムでは、このタスクに対する効果が限られていることが明らかになりました。
この研究では、収集してクリーンアップした複数のドメインからのリトアニアの 5 つ星ベースのオンライン レビューのセンチメント分析に取り組みます。
私たちは初めてこのタスクにトランスフォーマー モデルを適用し、事前トレーニングされた多言語大規模言語モデル (LLM) の機能を調査し、特に BERT モデルと T5 モデルの微調整に焦点を当てました。
タスクの本質的な難しさを考慮すると、微調整されたモデルは、特に感情自体があいまいでない場合に非常にうまく機能します。最も人気のある 1 つ星レビューと 5 つ星レビューの認識精度テストでは、それぞれ 80.74% と 89.61% でした。
これらは、現在の市販の最先端の汎用 LLM GPT-4 を大幅に上回ります。
私たちは、微調整された LLM をオンラインでオープンに共有します。

要約(オリジナル)

Sentiment analysis is a widely researched area within Natural Language Processing (NLP), attracting significant interest due to the advent of automated solutions. Despite this, the task remains challenging because of the inherent complexity of languages and the subjective nature of sentiments. It is even more challenging for less-studied and less-resourced languages such as Lithuanian. Our review of existing Lithuanian NLP research reveals that traditional machine learning methods and classification algorithms have limited effectiveness for the task. In this work, we address sentiment analysis of Lithuanian five-star-based online reviews from multiple domains that we collect and clean. We apply transformer models to this task for the first time, exploring the capabilities of pre-trained multilingual Large Language Models (LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the inherent difficulty of the task, the fine-tuned models perform quite well, especially when the sentiments themselves are less ambiguous: 80.74% and 89.61% testing recognition accuracy of the most popular one- and five-star reviews respectively. They significantly outperform current commercial state-of-the-art general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.

arxiv情報

著者 Brigita Vileikytė,Mantas Lukoševičius,Lukas Stankevičius
発行日 2024-07-29 11:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T05, 68T07, 68T50, cs.CL, cs.IR, cs.LG, I.2.6 パーマリンク