A gentle push funziona benissimo: making instructed models in Italian via contrastive activation steering

要約

事前トレーニング データに部分的にしか存在しなかった言語にモデルを適応させるには微調整が必​​要ですが、データと計算リソースの両方の点でコストがかかります。
微調整の代替として、イタリアのタスクでモデルのパフォーマンスを向上させるためのアクティベーション ステアリング ベースの手法の可能性を探ります。
私たちの実験を通じて、私たちはイタリア式ステア​​リングが (i) さまざまなモデルにうまく適用できること、(ii) イタリア語用に微調整されたモデルと同等かそれ以上のパフォーマンスを達成できること、(iii) イタリア語でより高い品質と一貫性が得られることを示しました。
世代。
また、現代の LLM 環境におけるステアリングと微調整の有用性についても説明します。LLM 言語で明示的にトレーニングを受けていなくても、モデルはとにかく高いイタリア語パフォーマンスを実現しています。

要約(オリジナル)

Adapting models to a language that was only partially present in the pre-training data requires fine-tuning, which is expensive in terms of both data and computational resources. As an alternative to fine-tuning, we explore the potential of activation steering-based techniques to enhance model performance on Italian tasks. Through our experiments we show that Italian steering (i) can be successfully applied to different models, (ii) achieves performances comparable to, or even better than, fine-tuned models for Italian, and (iii) yields higher quality and consistency in Italian generations. We also discuss the utility of steering and fine-tuning in the contemporary LLM landscape where models are anyway getting high Italian performances even if not explicitly trained in this language.

arxiv情報

著者 Daniel Scalena,Elisabetta Fersini,Malvina Nissim
発行日 2024-11-27 11:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク