Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation

要約

この研究では、セルフチャット メカニズムを使用して、高品質の言語固有のチャット コーパスを生成するための新しいアプローチを紹介します。
新しいサンプルを作成するためのジェネレーター LLM と、多様性を確保するためのエンベッダー LLM を組み合わせます。
コーパスの評価とフィルタリングのために、新しいマスク言語モデリング (MLM) モデルベースの品質評価指標が提案されています。
llama2-70b をジェネレーターとして、多言語文トランスフォーマーをエンベッダーとして利用して、イタリア語チャット コーパスを生成し、翻訳された英語 ChatGPT セルフチャット データに基づくファウノ コーパスを改良しました。
この改良では、構造アサーションと自然言語処理技術を使用します。
両方のコーパスは、提案された MLM モデルベースの品質指標を使用して包括的な品質評価を受けます。
これらのコーパスで微調整されたイタリア語 LLM は、言語理解力と質問応答スキルが大幅に向上していることを示しています。
結果として得られたモデル cerbero-7b は、イタリアの LLM 向けに新たな最先端のモデルを確立します。
このアプローチは、イタリア語のような過小評価されている言語のコーパスを強化することに特に重点を置いた、言語固有の LLM の開発における大幅な進歩を示しています。

要約(オリジナル)

This study introduces a novel approach for generating high-quality, language-specific chat corpora using a self-chat mechanism. We combine a generator LLM for creating new samples and an embedder LLM to ensure diversity. A new Masked Language Modelling (MLM) model-based quality assessment metric is proposed for evaluating and filtering the corpora. Utilizing the llama2-70b as the generator and a multilingual sentence transformer as embedder, we generate an Italian chat corpus and refine the Fauno corpus, which is based on translated English ChatGPT self-chat data. The refinement uses structural assertions and Natural Language Processing techniques. Both corpora undergo a comprehensive quality evaluation using the proposed MLM model-based quality metric. The Italian LLM fine-tuned with these corpora demonstrates significantly enhanced language comprehension and question-answering skills. The resultant model, cerbero-7b, establishes a new state-of-the-art for Italian LLMs. This approach marks a substantial advancement in the development of language-specific LLMs, with a special emphasis on augmenting corpora for underrepresented languages like Italian.

arxiv情報

著者 Federico A. Galatolo,Mario G. C. A. Cimino
発行日 2023-11-27 10:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク