Cultural Alignment in Large Language Models Using Soft Prompt Tuning

要約

大規模な言語モデル(LLM)アラインメントは、従来、監視された微調整または強化学習ベースのアライメントフレームワークに依存しています。
これらの方法は通常、ラベル付きまたは好みのデータセットを必要とし、モデルの重みを更新してLLMをトレーニング目標または報酬モデルに合わせることを伴います。
一方、異文化研究などの社会科学では、因子分析は、調査データの観察されたパターンを説明する根本的な次元または潜在変数を明らかにするために広く使用されています。
調査データに由来するこれらの測定の非分化不可能な性質は、文化的側面との調整のために、以前のアライメント方法を実行不可能にします。
これを克服するために、ソフトプロンプトチューニングを組み合わせたパラメーター効率的な戦略を提案します。ソフトプロンプトチューニングは、モデルパラメーターをフリーズし、入力プロンプトの埋め込みを変更し、差別化可能な目標が達成できない場合のブラックボックス最適化方法である差動進化(DE)を使用します。
この戦略により、優先データやモデルパラメーターの更新を必要とせずにアライメントの一貫性が保証され、効率が大幅に向上し、過剰適合が緩和されます。
私たちの方法は、複数の領域にわたるLlama-3-8B-Instructの文化的側面の大幅な改善を示しており、ナイーブLLMとコンテキスト学習(ICL)ベースラインの両方を上回り、計算モデルを人間の文化的ニュアンスに効果的に橋渡しします。

要約(オリジナル)

Large Language Model (LLM) alignment conventionally relies on supervised fine-tuning or reinforcement learning based alignment frameworks. These methods typically require labeled or preference datasets and involve updating model weights to align the LLM with the training objective or reward model. Meanwhile, in social sciences such as cross-cultural studies, factor analysis is widely used to uncover underlying dimensions or latent variables that explain observed patterns in survey data. The non-differentiable nature of these measurements deriving from survey data renders the former alignment methods infeasible for alignment with cultural dimensions. To overcome this, we propose a parameter efficient strategy that combines soft prompt tuning, which freezes the model parameters while modifying the input prompt embeddings, with Differential Evolution (DE), a black-box optimization method for cases where a differentiable objective is unattainable. This strategy ensures alignment consistency without the need for preference data or model parameter updates, significantly enhancing efficiency and mitigating overfitting. Our method demonstrates significant improvements in LLama-3-8B-Instruct’s cultural dimensions across multiple regions, outperforming both the Naive LLM and the In-context Learning (ICL) baseline, and effectively bridges computational models with human cultural nuances.

arxiv情報

著者 Reem I. Masoud,Martin Ferianc,Philip Treleaven,Miguel Rodrigues
発行日 2025-03-20 12:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク