Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted Sentiment Classification Benchmark

要約

多言語コーパスの収集とモデルのトレーニングは目覚ましい進歩を遂げていますが、多言語モデルの大規模展開の開発には依然として大きな課題があります。
これは、文化に依存する言語タスクに特に当てはまります。
そのような例の 1 つは、感情マーカーが微妙であり、文化に深く根付いている可能性がある多言語感情分析の分野です。
この研究では、センチメント モデルをトレーニングするための、最も広範でオープンな大規模多言語データセットのコーパスを紹介します。
このコーパスは、科学文献で報告されている 350 以上のデータセットから、厳格な品質基準に基づいて手動で選択された 79 のデータセットで構成されています。
このコーパスは、6 つの言語族を表す 27 の言語をカバーしています。
データセットは、いくつかの言語的および機能的機能を使用してクエリできます。
さらに、さまざまなベース モデル、トレーニング目標、データセット コレクション、微調整戦略に対して実施された数百の実験を要約した、多面的なセンチメント分類ベンチマークを示します。

要約(オリジナル)

Despite impressive advancements in multilingual corpora collection and model training, developing large-scale deployments of multilingual models still presents a significant challenge. This is particularly true for language tasks that are culture-dependent. One such example is the area of multilingual sentiment analysis, where affective markers can be subtle and deeply ensconced in culture. This work presents the most extensive open massively multilingual corpus of datasets for training sentiment models. The corpus consists of 79 manually selected datasets from over 350 datasets reported in the scientific literature based on strict quality criteria. The corpus covers 27 languages representing 6 language families. Datasets can be queried using several linguistic and functional features. In addition, we present a multi-faceted sentiment classification benchmark summarizing hundreds of experiments conducted on different base models, training objectives, dataset collections, and fine-tuning strategies.

arxiv情報

著者 Łukasz Augustyniak,Szymon Woźniak,Marcin Gruza,Piotr Gramacki,Krzysztof Rajda,Mikołaj Morzy,Tomasz Kajdanowicz
発行日 2023-06-13 16:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク