Using Contextually Aligned Online Reviews to Measure LLMs’ Performance Disparities Across Language Varieties

要約

言語は異なる品種を持つことができます。
これらの品種は、大規模な言語モデル(LLM)を含む自然言語処理(NLP)モデルのパフォーマンスに影響を与える可能性があります。
このペーパーでは、言語の品種間のベンチマークモデルのパフォーマンスに対する斬新で費用対効果の高いアプローチを紹介します。
Booking.comなどの国際的なオンラインレビュープラットフォームは、同じ言語(例えば、マンダリン中国語)を使用して同じ評価を持つ同じホテルのレビュー(例:Taiwan Mandarin、Mandarin、Mainland Mandarin)を使用した同じホテルのレビューなど、同様の現実世界のシナリオからの異なる言語品種のコメントをキャプチャするデータセットを構築するための効果的なデータソースとして役立つと主張しています。
この概念を証明するために、台湾のマンダリンと本土のマンダリンでのレビューを含むコンテキスト整列データセットを構築し、センチメント分析タスクで6つのLLMSをテストしました。
私たちの結果は、LLMSが台湾のマンダリンで一貫してパフォーマンスを下回っていることを示しています。

要約(オリジナル)

A language can have different varieties. These varieties can affect the performance of natural language processing (NLP) models, including large language models (LLMs), which are often trained on data from widely spoken varieties. This paper introduces a novel and cost-effective approach to benchmark model performance across language varieties. We argue that international online review platforms, such as Booking.com, can serve as effective data sources for constructing datasets that capture comments in different language varieties from similar real-world scenarios, like reviews for the same hotel with the same rating using the same language (e.g., Mandarin Chinese) but different language varieties (e.g., Taiwan Mandarin, Mainland Mandarin). To prove this concept, we constructed a contextually aligned dataset comprising reviews in Taiwan Mandarin and Mainland Mandarin and tested six LLMs in a sentiment analysis task. Our results show that LLMs consistently underperform in Taiwan Mandarin.

arxiv情報

著者 Zixin Tang,Chieh-Yang Huang,Tsung-Che Li,Ho Yin Sam Ng,Hen-Hsen Huang,Ting-Hao ‘Kenneth’ Huang
発行日 2025-03-20 15:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク