LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language

要約

大規模言語モデルは、コンピューターに自然言語を理解する能力を提供するために設計された最先端の言語モデルを表します。
LLaMA (Large Language Model Meta AI) ファミリは、複雑な文脈上の関係を捕捉する優れた能力を備えており、トランスフォーマー アーキテクチャの自然言語理解能力を向上させるように設計された基礎モデルをリリースすることで、自然言語処理の分野における新たな進歩を表しています。
大量のトレーニング可能なパラメータ (7、13、および 700 億のパラメータ)。
多くの自然言語理解タスクにおいて、これらのモデルは OpenAI Chat-GPT などの民間企業のモデルと同じパフォーマンスを獲得し、重みとコードを研究や商用目的で公開できるという利点があります。
この研究では、LLaMA モデルの言語適応の可能性を調査し、イタリア語の適用範囲の課題に対処することに明確に焦点を当てています。
オープン サイエンス アプローチを採用し、元のモデルのデータセットで過小評価されているこの言語での一般的なタスクに適した高品質のテキストをイタリア語で生成するために、さまざまなチューニング アプローチを検討します。
私たちは、多言語または汎用 LLM を使用して困難に見える多くのタスクに対して、強力な言語特性を備えた効果的なテキスト生成モデルをリリースすることを目指しています。
この研究は、オープン サイエンスの哲学を活用し、イタリア語 LLM の新しい LLaMANtino ファミリーを導入することにより、イタリア語の言語適応戦略に貢献します。

要約(オリジナル)

Large Language Models represent state-of-the-art linguistic models designed to equip computers with the ability to comprehend natural language. With its exceptional capacity to capture complex contextual relationships, the LLaMA (Large Language Model Meta AI) family represents a novel advancement in the field of natural language processing by releasing foundational models designed to improve the natural language understanding abilities of the transformer architecture thanks to their large amount of trainable parameters (7, 13, and 70 billion parameters). In many natural language understanding tasks, these models obtain the same performances as private company models such as OpenAI Chat-GPT with the advantage to make publicly available weights and code for research and commercial uses. In this work, we investigate the possibility of Language Adaptation for LLaMA models, explicitly focusing on addressing the challenge of Italian Language coverage. Adopting an open science approach, we explore various tuning approaches to ensure a high-quality text generated in Italian suitable for common tasks in this underrepresented language in the original models’ datasets. We aim to release effective text generation models with strong linguistic properties for many tasks that seem challenging using multilingual or general-purpose LLMs. By leveraging an open science philosophy, this study contributes to Language Adaptation strategies for the Italian language by introducing the novel LLaMAntino family of Italian LLMs.

arxiv情報

著者 Pierpaolo Basile,Elio Musacchio,Marco Polignano,Lucia Siciliani,Giuseppe Fiameni,Giovanni Semeraro
発行日 2023-12-15 18:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク