Experiences from Creating a Benchmark for Sentiment Classification for Varieties of English

要約

既存のベンチマークは、英語の言語バリエーションなど、言語の多様性を考慮していないことがよくあります。
このペーパーでは、オーストラリア英語 (en-AU)、インド英語 (en-IN)、イギリス英語 (en-UK) の 3 つの英語バリエーションに対するセンチメント分類ベンチマークを構築する進行中のプロジェクトの経験を共有します。
Google プレイスのレビューを使用して、ラベルのセマンティクス、レビューの長さ、センチメントの割合に基づいてさまざまなサンプリング手法の効果を調査し、3 つの微調整された BERT ベースのモデルでのパフォーマンスをレポートします。
私たちの初期評価では、サンプルの特性、ラベルのセマンティクス、言語の多様性の影響を受けるパフォーマンスの大幅な変動が明らかになり、微妙なベンチマーク設計の必要性が浮き彫りになりました。
当社は、研究者が堅牢なベンチマークを作成するための実用的な洞察を提供し、多様なサンプリング、慎重なラベル定義、言語の多様性にわたる包括的な評価の重要性を強調します。

要約(オリジナル)

Existing benchmarks often fail to account for linguistic diversity, like language variants of English. In this paper, we share our experiences from our ongoing project of building a sentiment classification benchmark for three variants of English: Australian (en-AU), Indian (en-IN), and British (en-UK) English. Using Google Places reviews, we explore the effects of various sampling techniques based on label semantics, review length, and sentiment proportion and report performances on three fine-tuned BERT-based models. Our initial evaluation reveals significant performance variations influenced by sample characteristics, label semantics, and language variety, highlighting the need for nuanced benchmark design. We offer actionable insights for researchers to create robust benchmarks, emphasising the importance of diverse sampling, careful label definition, and comprehensive evaluation across linguistic varieties.

arxiv情報

著者 Dipankar Srirag,Jordan Painter,Aditya Joshi,Diptesh Kanojia
発行日 2024-11-13 04:16:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク