MELA: Multilingual Evaluation of Linguistic Acceptability

要約

大規模言語モデル (LLM) の最近のベンチマークは、複雑な推論やコード生成などのアプリケーション駆動型のタスクに主に焦点を当てており、そのため LLM の純粋な言語評価が不足しています。
このような背景を背景に、言語受容性の多言語評価 — MELA を紹介します。これは、多様な言語族の 10 言語をカバーする 48,000 個のサンプルを使用した、言語受容性に関する初の多言語ベンチマークです。
私たちは教師ありモデルとともに一般的に使用される LLM のベースラインを確立し、XLM-R を使用して言語間伝達とマルチタスク学習の実験を実施します。
多言語の解釈可能性を追求するために、微調整されたXLM-Rの重みを分析し、言語間の伝達困難性を特定する可能性を探ります。
私たちの結果は、ChatGPT がコンテキスト内サンプルから多くの恩恵を受けているものの、依然として微調整された XLM-R には及ばない一方、GPT-4 のパフォーマンスはゼロショット設定でも微調整された XLM-R と同等であることを示しています。
言語を超えたマルチタスクの学習実験では、意味論的なタスクとは異なり、言語内のトレーニング データが受容性の判断に重要であることが示されています。
層ごとの調査の結果は、XLM-R の上位層が、多言語の受け入れ可能性を判断するためのタスク固有ではあるが言語に依存しない領域になることを示しています。
また、言語間の言語間伝達の難しさを示す潜在的な指標となる可能性がある、矛盾する重みの概念も紹介します。
私たちのデータは https://github.com/sjtu-compling/MELA で入手できます。

要約(オリジナル)

Recent benchmarks for Large Language Models (LLMs) have mostly focused on application-driven tasks such as complex reasoning and code generation, and this has led to a scarcity in purely linguistic evaluation of LLMs. Against this background, we introduce Multilingual Evaluation of Linguistic Acceptability — MELA, the first multilingual benchmark on linguistic acceptability with 48K samples covering 10 languages from a diverse set of language families. We establish baselines of commonly used LLMs along with supervised models, and conduct cross-lingual transfer and multi-task learning experiments with XLM-R. In pursuit of multilingual interpretability, we analyze the weights of fine-tuned XLM-R to explore the possibility of identifying transfer difficulty between languages. Our results show that ChatGPT benefits much from in-context examples but still lags behind fine-tuned XLM-R, while the performance of GPT-4 is on par with fine-tuned XLM-R even in zero-shot setting. Cross-lingual and multi-task learning experiments show that unlike semantic tasks, in-language training data is crucial in acceptability judgements. Results in layerwise probing indicate that the upper layers of XLM-R become a task-specific but language-agnostic region for multilingual acceptability judgment. We also introduce the concept of conflicting weight, which could be a potential indicator for the difficulty of cross-lingual transfer between languages. Our data will be available at https://github.com/sjtu-compling/MELA.

arxiv情報

著者 Ziyin Zhang,Yikang Liu,Weifang Huang,Junyu Mao,Rui Wang,Hai Hu
発行日 2023-11-15 15:25:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク