Generative Representational Instruction Tuning

要約

テキストベースの言語の問題はすべて、生成または埋め込みのいずれかに帰着できます。
現在のモデルはどちらか一方のみで優れたパフォーマンスを発揮します。
生成的表現命令チューニング (GRIT) を導入します。これにより、命令を通じて生成タスクと埋め込みタスクを区別することで、両方のタスクを処理できるように大規模な言語モデルがトレーニングされます。
他のオープン モデルと比較して、当社の GritLM 7B は、Massive Text Embedding Benchmark (MTEB) で新たな最先端技術を確立し、さまざまな生成タスクにおいてそのサイズまでのすべてのモデルを上回ります。
さらにスケールアップすることにより、GritLM 8x7B は、最高の埋め込みモデルの 1 つでありながら、私たちが試したすべてのオープン生成言語モデルよりも優れたパフォーマンスを発揮します。
特に、GRIT は生成データまたは埋め込みデータのみのトレーニングに一致するため、パフォーマンスを損なうことなく両方を統合できることがわかりました。
他の利点の中でも、GRIT による統合により、個別の検索モデルと生成モデルが必要なくなるため、長いドキュメントの検索拡張生成 (RAG) が 60% 以上高速化されます。
モデルやコードなどは https://github.com/ContextualAI/gritlm から無料で入手できます。

要約(オリジナル)

All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.

arxiv情報

著者 Niklas Muennighoff,Hongjin Su,Liang Wang,Nan Yang,Furu Wei,Tao Yu,Amanpreet Singh,Douwe Kiela
発行日 2024-04-17 17:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク