要約
大規模な言語モデル(LLM)は、多くの場合、出力にバイアス(予想される規範からの体系的な逸脱)を示します。
これらは、不公平な応答などの明白な問題から、どのモデルがそれらを生成したかを明らかにできる微妙なパターンにまで及びます。
LLMSの識別可能な特性を生じさせる要因を調査します。
LLMSモデルのトレーニングデータの分布以来、トレーニングデータの違いが自然に特性につながることは合理的です。
ただし、我々の調査結果は、LLMがまったく同じデータでトレーニングされている場合でも、生成されたテキストに基づいてソースモデルを区別することが依然として可能であることを明らかにしています。
これらの意図しない独特の特性を自然な指紋と呼びます。
トレーニング条件を体系的に制御することにより、パラメーターサイズ、最適化設定、ランダムシードなど、トレーニングプロセスの微妙な違いから自然な指紋が出現する可能性があることを示します。
自然な指紋を理解することで、意図しないバイアスの起源とLLMの行動を制御する方法に関する新しい洞察が得られると考えています。
要約(オリジナル)
Large language models (LLMs) often exhibit biases — systematic deviations from expected norms — in their outputs. These range from overt issues, such as unfair responses, to subtler patterns that can reveal which model produced them. We investigate the factors that give rise to identifiable characteristics in LLMs. Since LLMs model training data distribution, it is reasonable that differences in training data naturally lead to the characteristics. However, our findings reveal that even when LLMs are trained on the exact same data, it is still possible to distinguish the source model based on its generated text. We refer to these unintended, distinctive characteristics as natural fingerprints. By systematically controlling training conditions, we show that the natural fingerprints can emerge from subtle differences in the training process, such as parameter sizes, optimization settings, and even random seeds. We believe that understanding natural fingerprints offers new insights into the origins of unintended bias and ways for improving control over LLM behavior.
arxiv情報
著者 | Teppei Suzuki,Ryokan Ri,Sho Takase |
発行日 | 2025-04-21 05:48:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google