Generative Representational Instruction Tuning

要約

テキストベースの言語問題はすべて、生成か埋め込みのどちらかに還元できる。現在のモデルは、どちらか一方しかうまく処理できない。我々は生成的表現命令チューニング(GRIT)を導入することで、大規模な言語モデルを命令によって区別することで、生成タスクと埋め込みタスクの両方を扱えるように訓練する。他のオープンなモデルと比較して、我々の成果物であるGritLM 7Bは、大規模テキスト埋め込みベンチマーク(MTEB)において新たな技術水準を設定し、生成タスクの範囲において、そのサイズまでの全てのモデルを凌駕する。さらにスケールアップすることで、GritLM 8x7Bは、我々が試した全てのオープンな生成言語モデルを凌駕し、同時に最高の埋め込みモデルの仲間入りを果たしました。特筆すべきは、GRITは生成データまたは埋め込みデータのみで学習できることである。その他の利点として、GRITによる統一は、検索と生成の別々のモデルを必要としなくなるため、長い文書に対して検索拡張生成(RAG)を60%以上高速化する。モデルやコードなどは、https://github.com/ContextualAI/gritlm で自由に利用できる。

要約(オリジナル)

All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.

arxiv情報

著者 Niklas Muennighoff,Hongjin Su,Liang Wang,Nan Yang,Furu Wei,Tao Yu,Amanpreet Singh,Douwe Kiela
発行日 2025-03-03 04:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク