From MTEB to MTOB: Retrieval-Augmented Classification for Descriptive Grammars

要約

言語モデリングの最近の進歩により、文脈内学習、命令追従、リソースが極めて不足している言語の機械翻訳など、ゼロショット機能が大幅に向上していることが実証されています (Tanzer et al., 2024)。
しかし、書かれたリソースが限られている多くの言語は、主に文法と語彙の正式な説明に依存しています。
このペーパーでは、言語文法に含まれる複雑な記述からモデルがどの程度うまく情報を抽出して分類できるかを評価するための一連のベンチマークを紹介します。
これらの記述を機械翻訳などの下流タスクに活用する、検索拡張生成 (RAG) ベースのアプローチを紹介します。
私たちのベンチマークは、WALS と Grambank の類型的特徴に焦点を当て、142 の言語族にわたる 248 の言語の言語記述を網羅しています。
この一連のベンチマークは、言語特徴を正確に解釈して抽出するための言語モデルのコンテキスト内機能の包括的な評価を初めて提供し、NLP を低リソース言語に拡張するための重要なリソースを提供します。
コードとデータは \url{https://github.com/al-the-eigenvalue/RAG-on-grammars} で公開されています。

要約(オリジナル)

Recent advances in language modeling have demonstrated significant improvements in zero-shot capabilities, including in-context learning, instruction following, and machine translation for extremely under-resourced languages (Tanzer et al., 2024). However, many languages with limited written resources rely primarily on formal descriptions of grammar and vocabulary. In this paper, we introduce a set of benchmarks to evaluate how well models can extract and classify information from the complex descriptions found in linguistic grammars. We present a Retrieval-Augmented Generation (RAG)-based approach that leverages these descriptions for downstream tasks such as machine translation. Our benchmarks encompass linguistic descriptions for 248 languages across 142 language families, focusing on typological features from WALS and Grambank. This set of benchmarks offers the first comprehensive evaluation of language models’ in-context ability to accurately interpret and extract linguistic features, providing a critical resource for scaling NLP to low-resource languages. The code and data are publicly available at \url{https://github.com/al-the-eigenvalue/RAG-on-grammars}.

arxiv情報

著者 Albert Kornilov,Tatiana Shavrina
発行日 2024-12-26 16:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68-06, 68T01, 68T50, cs.CL, G.3 パーマリンク