High-Dimension Human Value Representation in Large Language Models

要約

大規模言語モデル (LLM) がさまざまなタスクや分野に広く適用されるようになったことで、これらのモデルを人間の価値観や好みに合わせることが必要になりました。
ヒューマン フィードバックによる強化学習 (RLHF) から憲法学習などに至るまで、人間の価値観の調整に関するさまざまなアプローチを考慮すると、これらのモデルに注入される人間の価値観の範囲と性質をリリース前に理解することが緊急に必要です。
また、コストのかかる大規模な人による注釈作業を行わずにモデルを調整する必要もあります。
私たちは、モデル アーキテクチャとトレーニング データに直交する、LLM における人間の価値分布の高次元表現である UniVaR を提案します。
8 つの多言語 LLM の価値関連の出力からトレーニングされ、4 つの多言語 LLM、つまり LlaMA2、ChatGPT、JAIS、Yi からの出力でテストされた結果、UniVaR が、さまざまな LLM に埋め込まれた人間の価値の分布を比較するための強力なツールであることを示しました。
さまざまな言語ソース。
UniVaR を通じて、さまざまな LLM がさまざまな言語や文化のさまざまな価値観をどのように優先するかを調査し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てます。

要約(オリジナル)

The widespread application of Large Language Models (LLMs) across various tasks and fields has necessitated the alignment of these models with human values and preferences. Given various approaches of human value alignment, ranging from Reinforcement Learning with Human Feedback (RLHF), to constitutional learning, etc. there is an urgent need to understand the scope and nature of human values injected into these models before their release. There is also a need for model alignment without a costly large scale human annotation effort. We propose UniVaR, a high-dimensional representation of human value distributions in LLMs, orthogonal to model architecture and training data. Trained from the value-relevant output of eight multilingual LLMs and tested on the output from four multilingual LLMs, namely LlaMA2, ChatGPT, JAIS and Yi, we show that UniVaR is a powerful tool to compare the distribution of human values embedded in different LLMs with different langauge sources. Through UniVaR, we explore how different LLMs prioritize various values in different languages and cultures, shedding light on the complex interplay between human values and language modeling.

arxiv情報

著者 Samuel Cahyawijaya,Delong Chen,Yejin Bang,Leila Khalatbari,Bryan Wilie,Ziwei Ji,Etsuko Ishii,Pascale Fung
発行日 2024-04-11 16:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク