PHOENIX: Open-Source Language Adaption for Direct Preference Optimization

要約

大規模な言語モデルは近年非常に重要性を増しており、さまざまなタスクの解決において優れた結果を示しています。
ただし、これらの成果にもかかわらず、大規模な言語モデルのコンテキストでは多くの疑問が未解決のままです。
推論のためのモデルの最適な使用と、結果を目的の仕様に調整することに加えて、モデルを他の言語に移植することは、まだ未開発の研究分野です。
Llama-2 や Zephyr などのモデルが最近公開されたことで、アーキテクチャの改善と人間のフィードバックの使用について新たな洞察が得られました。
ただし、これらの手法を他の言語に適用するための洞察は依然として不足しています。
このペーパーでは、最新の改善点に基づいて直接優先最適化 (DPO) アプローチをドイツ語に適用します。
このモデルは https://huggingface.co/DRXD1000/Phoenix で入手できます。

要約(オリジナル)

Large language models have gained immense importance in recent years and have demonstrated outstanding results in solving various tasks. However, despite these achievements, many questions remain unanswered in the context of large language models. Besides the optimal use of the models for inference and the alignment of the results to the desired specifications, the transfer of models to other languages is still an underdeveloped area of research. The recent publication of models such as Llama-2 and Zephyr has provided new insights into architectural improvements and the use of human feedback. However, insights into adapting these techniques to other languages remain scarce. In this paper, we build on latest improvements and apply the Direct Preference Optimization(DPO) approach to the German language. The model is available at https://huggingface.co/DRXD1000/Phoenix.

arxiv情報

著者 Matthias Uhlig,Sigurd Schacht,Sudarshan Kamath Barkur
発行日 2024-01-19 09:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク