要約
多言語基盤モデルのベンチマークである SeaEval を紹介します。
これらのモデルが自然言語をどのように理解して推論するかを特徴付けることに加えて、モデルが文化的慣習、ニュアンス、価値観をどの程度理解しているかも調査します。
標準的な精度メトリクスに加えて、セマンティクスと多言語性の観点から基礎モデルの脆弱性を調査します。
私たちの分析はオープンソース モデルとクローズド モデルの両方に及び、古典的な NLP タスク、推論、文化的理解にわたる経験的な結果につながります。
主な調査結果は、(1) ほとんどのモデルは、言い換えられた指示が与えられるとさまざまな動作を示すことを示しています。
(2) 多くのモデルは依然として露出バイアス (位置的バイアス、多数派ラベルのバイアスなど) に悩まされています。
(3) 事実、科学、常識的な知識に根ざした質問の場合、意味的に同等の多言語クエリ全体で一貫した応答が期待されます。
しかし、ほとんどのモデルは驚くべきことに、これらのクエリに対して一貫性のないパフォーマンスを示します。
(4) 多言語でトレーニングされたモデルは、「バランスのとれた多言語」機能を獲得していません。
私たちの取り組みは、より一般化可能な意味表現と強化された多言語文脈化の必要性を強調しています。
SeaEval は、多言語および多文化のシナリオについて、より徹底的な調査と評価を行うための出発点として機能します。
要約(オリジナル)
We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained ‘balanced multilingual’ capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
arxiv情報
著者 | Bin Wang,Zhengyuan Liu,Xin Huang,Fangkai Jiao,Yang Ding,Ai Ti Aw,Nancy F. Chen |
発行日 | 2023-12-19 08:25:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google