要約
人間は、いくつかの実例から新しい単語を迅速に学び、次に新しい文脈で体系的かつ柔軟に使用できます。
しかし、少数のショットワード学習のための現在の言語モデルの能力、およびこれらの能力を改善する方法は、露出不足です。
この研究では、単語のコンテキスト学習のためのメタトレーニング(Minnow)の新しい方法を紹介します。
この方法は、言語モデルをトレーニングして、特別なプレースホルダートークンを使用して新しい単語を表すいくつかのコンテキストの例を考慮して、単語の使用の新しい例を生成します。
このトレーニングは、一般的な単語学習能力を開発するために、多くの新しい単語で繰り返されます。
Minnowを使用した人間の子ども向け言語でのゼロからのトレーニングモデルは、数桁のより多くのデータで事前に訓練された大規模な言語モデル(LLM)に匹敵する強力な少数の単語学習を可能にすることがわかります。
さらに、差別的および生成的評価を通じて、Minnowで微調整する事前訓練を受けたLLMが、新しい単語を区別し、新しい単語の構文カテゴリを特定し、1つまたはAに基づいて新しい単語の合理的な新しい使用法と定義を生成する能力を向上させることを実証します。
コンテキスト内の例はほとんどありません。
これらの調査結果は、ミノーのデータ効率と、単語学習タスクの言語モデルのパフォーマンスを改善する可能性を強調しています。
要約(オリジナル)
Humans can quickly learn a new word from a few illustrative examples, and then systematically and flexibly use it in novel contexts. Yet the abilities of current language models for few-shot word learning, and methods for improving these abilities, are underexplored. In this study, we introduce a novel method, Meta-training for IN-context learNing Of Words (Minnow). This method trains language models to generate new examples of a word’s usage given a few in-context examples, using a special placeholder token to represent the new word. This training is repeated on many new words to develop a general word-learning ability. We find that training models from scratch with Minnow on human-scale child-directed language enables strong few-shot word learning, comparable to a large language model (LLM) pre-trained on orders of magnitude more data. Furthermore, through discriminative and generative evaluations, we demonstrate that finetuning pre-trained LLMs with Minnow improves their ability to discriminate between new words, identify syntactic categories of new words, and generate reasonable new usages and definitions for new words, based on one or a few in-context examples. These findings highlight the data efficiency of Minnow and its potential to improve language model performance in word learning tasks.
arxiv情報
著者 | Wentao Wang,Guangyuan Jiang,Tal Linzen,Brenden M. Lake |
発行日 | 2025-02-20 18:11:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google