Multi-Lingual Malaysian Embedding: Leveraging Large Language Models for Semantic Representations

要約

この研究では、マレーシアの言語モデル、特にLlama2とMistralを、否定と正のペアを含む埋め込みタスクで微調整する包括的な研究を紹介する。我々は、意味類似と検索補強生成(RAG)のために調整された2つの異なるモデルをリリースする。 意味的類似性に関しては、我々の6億パラメータLlama2モデルは、b.cari.com.my、c.cari.com.my、マレー語ニュース、マレーシア語Twitterのテストセットにおいて、全てのrecall@kメトリクスでOpenAI text-embedding-ada-002を上回った。 RAGモデルの領域において、我々のアプローチはマレーシアのコンテキストにおいてOpenAIのtext-embedding-ada-002と競合することが証明された。特に、我々の20億パラメータLlama2モデルは、「Melayu」キーワード研究論文データセットにおいて優れたRecall@5、Recall@10を達成し、lom.agc.gov.myデータセットではRecall@3、Recall@5、Recall@10で優れている。 これらの結果は、我々のファインチューニング戦略の有効性を強調するものであり、意味類似性とRAGタスクの両方における性能向上を強調するものである。 全てのモデルは https://huggingface.co/collections/mesolitica/malaysian-embedding-6523612bfe5881ad35f81b99 で公開されている。

要約(オリジナル)

In this work, we present a comprehensive exploration of finetuning Malaysian language models, specifically Llama2 and Mistral, on embedding tasks involving negative and positive pairs. We release two distinct models tailored for Semantic Similarity and Retrieval-Augmented Generation (RAG). For Semantic Similarity, our 600 million parameter Llama2 model outperforms OpenAI text-embedding-ada-002 across all recall@k metrics for b.cari.com.my, c.cari.com.my, Malay news, and Malaysian Twitter test sets. In the realm of RAG models, our approach proves competitive with OpenAI text-embedding-ada-002 in the Malaysian context. Notably, our 2 billion parameter Llama2 model achieves superior Recall@5, Recall@10 for the ‘Melayu’ keyword research papers dataset and excels in Recall@3, Recall@5, and Recall@10 for the lom.agc.gov.my dataset. These findings underscore the effectiveness of our finetuning strategy and highlight the performance gains in both Semantic Similarity and RAG tasks. All models released at https://huggingface.co/collections/mesolitica/malaysian-embedding-6523612bfe5881ad35f81b99

arxiv情報

著者 Husein Zolkepli,Aisyah Razak,Kamarul Adha,Ariff Nazhan
発行日 2024-02-05 14:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク