要約
言語モデルは急速に進化し、主に英語に焦点を当てている一方で、他の言語での広範な事前トレーニングは無視されることがよくあります。
このアプローチには、微調整を通じて英語中心の強力なモデルを他の言語コンテキストに適応させる取り組みが必要でした。
オランダ人にとって、そのような最近の試みは、もともと英国を拠点とするミストラル 7B から派生したモデルである「GEITje」です。
この基本的な研究に基づいて、現在の研究は、合成フィードバック データセットに対する追加の嗜好調整手順とともに、新しく作成された高品質の合成会話データセットに対する教師あり微調整によって GEITje の機能を拡張しています。
開発されたモデルと作成されたデータセットは両方ともオープンに利用できます。
要約(オリジナル)
Language models have rapidly evolved, predominantly focusing on English while often neglecting extensive pretraining in other languages. This approach has required initiatives to adapt powerful, English-centric models to other linguistic contexts through finetuning. For Dutch, such a recent endeavour is “GEITje” a model originally derived from the English-based Mistral 7B. Building on this fundamental work, the current research extends the capabilities of GEITje by supervised finetuning on newly created high-quality synthetic conversational datasets, along with an additional preference alignment procedure on a synthetic feedback dataset. Both the developed models and the created datasets are openly available.
arxiv情報
著者 | Bram Vanroy |
発行日 | 2024-12-05 11:56:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google