The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising ‘Alignment’ in Large Language Models

要約

この論文では、ポスト構造主義社会政治理論のレンズを通して大規模言語モデル (LLM) における「調整」の概念を取り上げ、特に空のシニフィアンとの類似点を検討します。
アライメントの抽象的な概念が経験的データセットでどのように運用されるかに関する共有語彙を確立するために、次の境界を示すフレームワークを提案します。1) モデルの動作のどの次元が重要であると考えられるか、次に 2) 意味と定義がこれらの次元にどのように帰属するか、そして
誰が。
私たちは既存の経験的文献を位置づけ、どのパラダイムに従うべきかを決定するためのガイダンスを提供します。
このフレームワークを通じて、私たちは透明性と批判的評価の文化を育み、コミュニティが LLM と人間集団との調整における複雑さを乗り越えられるよう支援することを目指しています。

要約(オリジナル)

In this paper, we address the concept of ‘alignment’ in large language models (LLMs) through the lens of post-structuralist socio-political theory, specifically examining its parallels to empty signifiers. To establish a shared vocabulary around how abstract concepts of alignment are operationalised in empirical datasets, we propose a framework that demarcates: 1) which dimensions of model behaviour are considered important, then 2) how meanings and definitions are ascribed to these dimensions, and by whom. We situate existing empirical literature and provide guidance on deciding which paradigm to follow. Through this framework, we aim to foster a culture of transparency and critical evaluation, aiding the community in navigating the complexities of aligning LLMs with human populations.

arxiv情報

著者 Hannah Rose Kirk,Bertie Vidgen,Paul Röttger,Scott A. Hale
発行日 2023-11-15 18:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク