Ruri: Japanese General Text Embeddings

要約

日本語汎用テキスト埋め込みモデル「Ruri」シリーズの開発について報告する。
近年、英語や多言語コンテキストでの汎用テキスト埋め込みモデルの開発が活発ですが、日本語でのモデル開発は依然として不十分です。
その主な理由は、データセットの欠如と必要な専門知識の欠如です。
本レポートでは、Ruri の開発プロセスを詳しく説明します。
具体的には、LLM によって生成された合成データセットを使用した埋め込みモデルのトレーニング、データセットのフィルタリングと知識の蒸留のためのリランカーの構築、および結果として得られる汎用テキスト埋め込みモデルのパフォーマンス評価について説明します。

要約(オリジナル)

We report the development of Ruri, a series of Japanese general text embedding models. While the development of general-purpose text embedding models in English and multilingual contexts has been active in recent years, model development in Japanese remains insufficient. The primary reasons for this are the lack of datasets and the absence of necessary expertise. In this report, we provide a detailed account of the development process of Ruri. Specifically, we discuss the training of embedding models using synthesized datasets generated by LLMs, the construction of the reranker for dataset filtering and knowledge distillation, and the performance evaluation of the resulting general-purpose text embedding models.

arxiv情報

著者 Hayato Tsukagoshi,Ryohei Sasano
発行日 2024-09-12 04:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク