Exploring Robustness of Multilingual LLMs on Real-World Noisy Data

要約

大規模言語モデル (LLM) は、人間によるスペルミスが含まれる可能性のある Web データでトレーニングされます。
しかし、それらは同様の現実世界のノイズに対して堅牢になるのでしょうか?
この論文では、自然言語推論 (NLI)、名前実体認識 (NER) という 3 つの異なる NLP タスクにおいて、パラメータが 0.2B から 13B の範囲にある 9 つの言語モデルのパフォーマンスに対する現実世界のスペルミスの影響を調査します。
)、および意図分類 (IC)。
私たちは 6 つの異なる言語で実験を実行し、Wikipedia の編集履歴を使用してそれらの言語に対する現実世界のノイズの辞書を構築しました。
すべてのデータセットと言語にわたって平均した、クリーンなテスト データとノイズの多いテスト データにおける調査対象モデルのパフォーマンス ギャップが、絶対パーセント ポイントの範囲で 2.3 ~ 4.3 パーセントであることを示します。
さらに、mT5 モデルは一般に、BLOOM、Falcon、および BERT のようなモデルと比較して、より堅牢性を示します。
特に、mT5 (13B) は、3 つのタスク全体、および 6 つの言語のうち 4 つの言語において、全体の平均で最も堅牢でした。

要約(オリジナル)

Large Language Models (LLMs) are trained on Web data that might contain spelling errors made by humans. But do they become robust to similar real-world noise? In this paper, we investigate the effect of real-world spelling mistakes on the performance of 9 language models, with parameters ranging from 0.2B to 13B, in 3 different NLP tasks, namely Natural Language Inference (NLI), Name Entity Recognition (NER), and Intent Classification (IC). We perform our experiments on 6 different languages and build a dictionary of real-world noise for them using the Wikipedia edit history. We show that the performance gap of the studied models on the clean and noisy test data averaged across all the datasets and languages ranges from 2.3 to 4.3 absolute percentage points. In addition, mT5 models, in general, show more robustness compared to BLOOM, Falcon, and BERT-like models. In particular, mT5 (13B), was the most robust on average overall, across the 3 tasks, and in 4 of the 6 languages.

arxiv情報

著者 Amirhossein Aliakbarzadeh,Lucie Flek,Akbar Karimi
発行日 2025-01-14 18:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク