要約
現在の文献では、ほとんどの埋め込みモデルは、エンコーダーのみのトランスアーキテクチャに基づいており、特定の入力の密な意味のある表現を抽出します。これは、テキスト、画像などです。
大規模な言語モデルの導入により、言語モデリングの最近の進歩により、これらの大規模で広範囲に訓練されたモデルから埋め込みを抽出する可能性が調査されています。
ただし、現在の研究は、英語のテキスト埋め込みに焦点を当てています。これは、これらのモデルが訓練されている主要言語でもあります。
さらに、マルチモーダルと多言語の入力を考慮するモデルはほとんどありません。
これに照らして、英語データで訓練された大規模なビジョン言語モデルの適応方法論を提案し、多言語埋め込みとマルチモーダル埋め込みを抽出する際のパフォーマンスを向上させます。
最後に、多言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを設計および導入します。
要約(オリジナル)
In the current literature, most embedding models are based on the encoder-only transformer architecture to extract a dense and meaningful representation of the given input, which can be a text, an image, and more. With the recent advances in language modeling thanks to the introduction of Large Language Models, the possibility of extracting embeddings from these large and extensively trained models has been explored. However, current studies focus on textual embeddings in English, which is also the main language on which these models have been trained. Furthermore, there are very few models that consider multimodal and multilingual input. In light of this, we propose an adaptation methodology for Large Vision-Language Models trained on English language data to improve their performance in extracting multilingual and multimodal embeddings. Finally, we design and introduce a benchmark to evaluate the effectiveness of multilingual and multimodal embedding models.
arxiv情報
著者 | Elio Musacchio,Lucia Siciliani,Pierpaolo Basile,Giovanni Semeraro |
発行日 | 2025-03-12 12:04:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google