Cross-domain Sentiment Classification in Spanish

要約

感情分類は、自然言語処理の分野における基本的なタスクであり、非常に重要な学術的および商業的用途があります。
製品や映画のレビュー、ツイートなど、ある程度の意見や主観を含むテキストに含まれる感情の程度を自動的に予測することを目的としています。
テキストの異なるドメインには異なる単語や表現が含まれているため、これを達成するのは非常に困難な場合があります。
さらに、データベースやリソースが不足しているため、テキストが英語以外の言語で書かれている場合、この問題はさらに大きくなります。
結果として、結果を改善するために、いくつかのクロスドメインおよびクロス言語技術がこのタスクに適用されることがよくあります。
この作業では、製品レビューの大規模なデータベースでトレーニングされた分類システムが、さまざまなスペイン語ドメインに一般化する能力について調査を行います。
ラテンアメリカの 7 か国の MercadoLibre Web サイトからレビューが収集され、大規模でバランスの取れたデータセットが作成されました。
結果は、これらの製品レビューでトレーニングした場合、ドメイン全体の一般化は実現可能ですが、非常に困難であり、事前トレーニングと分類モデルの微調整によって改善できることを示唆しています。

要約(オリジナル)

Sentiment Classification is a fundamental task in the field of Natural Language Processing, and has very important academic and commercial applications. It aims to automatically predict the degree of sentiment present in a text that contains opinions and subjectivity at some level, like product and movie reviews, or tweets. This can be really difficult to accomplish, in part, because different domains of text contains different words and expressions. In addition, this difficulty increases when text is written in a non-English language due to the lack of databases and resources. As a consequence, several cross-domain and cross-language techniques are often applied to this task in order to improve the results. In this work we perform a study on the ability of a classification system trained with a large database of product reviews to generalize to different Spanish domains. Reviews were collected from the MercadoLibre website from seven Latin American countries, allowing the creation of a large and balanced dataset. Results suggest that generalization across domains is feasible though very challenging when trained with these product reviews, and can be improved by pre-training and fine-tuning the classification model.

arxiv情報

著者 Lautaro Estienne,Matias Vera,Leonardo Rey Vega
発行日 2023-03-15 23:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク