Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop

要約

LLM がさまざまなユーザーやシナリオにさらに普及するにつれて、これらのモデルを使用する際の潜在的な問題を特定することが重要になります。
例としては、偏見、矛盾、幻覚などが挙げられます。
これらの問題について LLM を監査することは望ましいことですが、それは決して簡単なことでも、解決されることでもありません。
効果的な方法は、同じ質問の異なるバージョンを使用して LLM を調査することです。
これにより、その知識や運用における矛盾が露呈し、偏見や幻覚の可能性が示される可能性があります。
ただし、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するアプローチが必要です。
このペーパーでは、人間参加型とともに異なる LLM を使用する、自動かつスケーラブルなソリューションを提案します。
このアプローチは検証可能性と透明性を提供すると同時に、同じ LLM への循環依存を回避し、科学的な厳密性と一般化可能性を高めます。
具体的には、応答を検証するための標準化された評価基準と、目的のプローブを生成するための構造化されたプロンプト テンプレートという、人間を使用した検証の 2 つのフェーズを含む新しい方法論を紹介します。
TruthfulQA データセットからの一連の質問に対する実験により、ある LLM から信頼できるプローブのセットを生成でき、それを使用して別の LLM の不一致を監査できることがわかりました。
監査プローブを生成および適用するための基準は、基礎となる構造やトレーニング メカニズムに関係なく、さまざまな LLM に一般化できます。

要約(オリジナル)

As LLMs become more pervasive across various users and scenarios, identifying potential issues when using these models becomes essential. Examples include bias, inconsistencies, and hallucination. Although auditing the LLM for these problems is desirable, it is far from being easy or solved. An effective method is to probe the LLM using different versions of the same question. This could expose inconsistencies in its knowledge or operation, indicating potential for bias or hallucination. However, to operationalize this auditing method at scale, we need an approach to create those probes reliably and automatically. In this paper we propose an automatic and scalable solution, where one uses a different LLM along with human-in-the-loop. This approach offers verifiability and transparency, while avoiding circular reliance on the same LLMs, and increasing scientific rigor and generalizability. Specifically, we present a novel methodology with two phases of verification using humans: standardized evaluation criteria to verify responses, and a structured prompt template to generate desired probes. Experiments on a set of questions from TruthfulQA dataset show that we can generate a reliable set of probes from one LLM that can be used to audit inconsistencies in a different LLM. The criteria for generating and applying auditing probes is generalizable to various LLMs regardless of the underlying structure or training mechanism.

arxiv情報

著者 Maryam Amirizaniani,Jihan Yao,Adrian Lavergne,Elizabeth Snell Okada,Aman Chadha,Tanya Roosta,Chirag Shah
発行日 2024-02-16 16:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク