Domain Adaptation of Foundation LLMs for e-Commerce

要約

私たちは、e-Llama モデルを紹介します。これは、電子商取引ドメインに適応した 80 億および 700 億パラメータの大規模言語モデルです。
これらのモデルは、電子商取引に関する深い知識を備えた基礎モデルとして意図されており、指示と微調整のベースを形成します。
e-Llama モデルは、ドメイン固有のデータの 1 兆トークンに基づいて Llama 3.1 ベース モデルを継続的に事前トレーニングすることによって取得されます。
私たちはアプローチについて話し合い、一連のアブレーション研究でハイパーパラメータの選択を動機付けます。
モデルが電子商取引ドメインにどの程度うまく適応しているかを定量化するために、一連の多言語の電子商取引固有の評価タスクを定義して実装します。
トレーニング設定を慎重に選択すると、一般的なドメイン タスクのパフォーマンスを大幅に犠牲にすることなく、Llama 3.1 モデルを新しいドメインに適応させることができることを示します。
また、ドメイン間のパフォーマンスのトレードオフをより適切に制御するために、適応モデルと基本モデルをマージする可能性も検討します。

要約(オリジナル)

We present the e-Llama models: 8 billion and 70 billion parameter large language models that are adapted towards the e-commerce domain. These models are meant as foundation models with deep knowledge about e-commerce, that form a base for instruction- and fine-tuning. The e-Llama models are obtained by continuously pretraining the Llama 3.1 base models on 1 trillion tokens of domain-specific data. We discuss our approach and motivate our choice of hyperparameters with a series of ablation studies. To quantify how well the models have been adapted to the e-commerce domain, we define and implement a set of multilingual, e-commerce specific evaluation tasks. We show that, when carefully choosing the training setup, the Llama 3.1 models can be adapted towards the new domain without sacrificing significant performance on general domain tasks. We also explore the possibility of merging the adapted model and the base model for a better control of the performance trade-off between domains.

arxiv情報

著者 Christian Herold,Michael Kozielski,Tala Bazazo,Pavel Petrushkov,Hadi Hashemi,Patrycja Cieplicka,Dominika Basaj,Shahram Khadivi
発行日 2025-01-16 17:58:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク