CoLLEGe: Concept Embedding Generation for Large Language Models

要約

現在の言語モデルは、新しい概念をその場ですぐに学習することができず、多くの場合、確実に学習するには、より複雑な微調整プロセスが必要になります。
コンテキスト内でのプロンプトは、コンテキストの邪魔に強くなく、多くの場合、新しい概念について多くの情報を提供できません。
グローバル単語ベクトルに依存する、NLP での少数ショット単語学習の古典的な方法は、大規模な言語モデルにはあま​​り適用できません。
この論文では、数ショットの概念学習を最新化するための CoLLEGe (Concept Learning with Language Embedding Generation) と呼ばれる新しいアプローチを紹介します。
CoLLEGe は、少数の例文や定義を使用して、新しい概念に対する柔軟な埋め込みを生成できるメタ学習フレームワークです。
私たちの主なメタ学習の目的は、単純に、言語モデルが今後の文の次の単語を予測できるようにし、言語モデルの事前トレーニングと互換性を持たせることです。
新しい単語の獲得、定義の推論、口頭での推論など、困難な現実世界のシナリオで新しい概念の学習をテストする一連のタスクを設計し、タスク固有のトレーニングなしで各設定で私たちの方法が成功することを実証します。

要約(オリジナル)

Current language models are unable to quickly learn new concepts on the fly, often requiring a more involved finetuning process to learn robustly. Prompting in-context is not robust to context distractions, and often fails to confer much information about the new concepts. Classic methods for few-shot word learning in NLP, relying on global word vectors, are less applicable to large language models. In this paper, we introduce a novel approach named CoLLEGe (Concept Learning with Language Embedding Generation) to modernize few-shot concept learning. CoLLEGe is a meta-learning framework capable of generating flexible embeddings for new concepts using a small number of example sentences or definitions. Our primary meta-learning objective is simply to facilitate a language model to make next word predictions in forthcoming sentences, making it compatible with language model pretraining. We design a series of tasks to test new concept learning in challenging real-world scenarios, including new word acquisition, definition inference, and verbal reasoning, and demonstrate that our method succeeds in each setting without task-specific training.

arxiv情報

著者 Ryan Teehan,Brenden Lake,Mengye Ren
発行日 2024-03-22 17:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク