要約
世界の言語向けの NLP システムを開発する上での課題は、現実世界のアプリケーションに関連する類型的な違いを言語がどのように一般化するかを理解することです。
この目的を達成するために、NLP モデルの動作テストのための形態学的に認識されたフレームワークである M2C を提案します。
私たちは M2C を使用して、類型的に多様な 12 の言語の特定の言語的特徴に照らしてモデルの動作を調査するテストを生成します。
生成されたテストで最先端の言語モデルを評価します。
モデルは英語のほとんどのテストでは優れていますが、スワヒリ語の時相表現やフィニッシュの複合所有格など、特定の類型的特徴に対する一般化の失敗を強調します。
私たちの発見は、これらの盲点に対処するモデルの開発の動機となります。
要約(オリジナル)
A challenge towards developing NLP systems for the world’s languages is understanding how they generalize to typological differences relevant for real-world applications. To this end, we propose M2C, a morphologically-aware framework for behavioral testing of NLP models. We use M2C to generate tests that probe models’ behavior in light of specific linguistic features in 12 typologically diverse languages. We evaluate state-of-the-art language models on the generated tests. While models excel at most tests in English, we highlight generalization failures to specific typological characteristics such as temporal expressions in Swahili and compounding possessives in Finish. Our findings motivate the development of models that address these blind spots.
arxiv情報
著者 | Ester Hlavnova,Sebastian Ruder |
発行日 | 2023-07-11 17:33:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google