LLM-CI: Assessing Contextual Integrity Norms in Language Models

要約

大規模言語モデル (LLM) は、インターネットから収集したトレーニング データの一部を記憶する一方で、誤って社会の好みや規範をエンコードしてしまう可能性もあります。
これらのモデルは社会技術システムに統合されるため、モデルがコード化する規範が社会の期待と一致していることが重要です。
これらの基準は、モデル、ハイパーパラメーター、最適化手法、データセットによって異なる可能性があります。
これは、プロンプトの感度が非常に高いため、特に困難です。プロンプトのわずかな変動により異なる応答が生じ、既存の評価方法の信頼性が低くなります。
エンコードされた規範を評価するための信頼できる方法論とともに、さまざまなモデル、最適化、データセットをカバーする包括的なフレームワークが必要です。
私たちは、LLM にエンコードされたプライバシー規範を評価するための最初のオープンソース フレームワークである LLM-CI を紹介します。
LLM-CI は、コンテキスト整合性ベースの要因ビネット手法を使用して、さまざまなコンテキストと LLM にわたってエンコードされた規範を評価します。
我々は、複数のバリアントにわたって一貫した応答をもたらすプロンプトのみから規範を評価することによって、プロンプトの感度に対処するためのマルチプロンプト評価方法論を提案します。
LLM-CI と私たちが提案する方法論を使用して、以前の研究からの IoT および COPPA ビネット データセットを使用して LLM を包括的に評価し、モデルのプロパティ (例: ハイパーパラメーター、容量) と最適化戦略 (例: アライメント、量子化) の影響を調べます。

要約(オリジナル)

Large language models (LLMs), while memorizing parts of their training data scraped from the Internet, may also inadvertently encode societal preferences and norms. As these models are integrated into sociotechnical systems, it is crucial that the norms they encode align with societal expectations. These norms could vary across models, hyperparameters, optimization techniques, and datasets. This is especially challenging due to prompt sensitivity$-$small variations in prompts yield different responses, rendering existing assessment methodologies unreliable. There is a need for a comprehensive framework covering various models, optimization, and datasets, along with a reliable methodology to assess encoded norms. We present LLM-CI, the first open-sourced framework to assess privacy norms encoded in LLMs. LLM-CI uses a Contextual Integrity-based factorial vignette methodology to assess the encoded norms across different contexts and LLMs. We propose the multi-prompt assessment methodology to address prompt sensitivity by assessing the norms from only the prompts that yield consistent responses across multiple variants. Using LLM-CI and our proposed methodology, we comprehensively evaluate LLMs using IoT and COPPA vignettes datasets from prior work, examining the impact of model properties (e.g., hyperparameters, capacity) and optimization strategies (e.g., alignment, quantization).

arxiv情報

著者 Yan Shvartzshnaider,Vasisht Duddu,John Lacalamita
発行日 2024-09-05 17:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CY, cs.LG パーマリンク