そのような例の 1 つは、感情マーカーが微妙であり、文化に深く根付いている可能性がある多言語感情分析の分野です。
この研究では、センチメント モデルをトレーニングするための、最も広範でオープンな大規模多言語データセットのコーパスを紹介します。
このコーパスは、科学文献で報告されている 350 以上のデータセットから、厳格な品質基準に基づいて手動で選択された 79 のデータセットで構成されています。
このコーパスは、6 つの言語族を表す 27 の言語をカバーしています。
さらに、さまざまなベース モデル、トレーニング目標、データセット コレクション、微調整戦略に対して実施された数百の実験を要約した、多面的なセンチメント分類ベンチマークを示します。
Despite impressive advancements in multilingual corpora collection and model training, developing large-scale deployments of multilingual models still presents a significant challenge. This is particularly true for language tasks that are culture-dependent. One such example is the area of multilingual sentiment analysis, where affective markers can be subtle and deeply ensconced in culture. This work presents the most extensive open massively multilingual corpus of datasets for training sentiment models. The corpus consists of 79 manually selected datasets from over 350 datasets reported in the scientific literature based on strict quality criteria. The corpus covers 27 languages representing 6 language families. Datasets can be queried using several linguistic and functional features. In addition, we present a multi-faceted sentiment classification benchmark summarizing hundreds of experiments conducted on different base models, training objectives, dataset collections, and fine-tuning strategies.
著者 | Łukasz Augustyniak,Szymon Woźniak,Marcin Gruza,Piotr Gramacki,Krzysztof Rajda,Mikołaj Morzy,Tomasz Kajdanowicz |
発行日 | 2023-06-13 16:54:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google