AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach

要約

大規模言語モデル (LLM) がさまざまな状況で広く採用されるようになるにつれて、アプリケーションに対して合理的な安全性、一貫性、信頼性を確保することが重要になります。
これには、調査または監査が必要になる場合があります。
単一の質問をさまざまに繰り返して LLM を調査すると、LLM の知識や機能における潜在的な不一致が明らかになる可能性があります。
しかし、このような監査を単純なワークフローと低い技術的閾値で実行するためのツールが不足しています。
このデモでは、さまざまな LLM のパフォーマンスを系統的に評価するために設計された新しいツール「AuditLLM」を紹介します。
AuditLLM の中核となる機能は、単一の質問から生成された複数のプローブを使用して特定の LLM を監査することで、モデルの理解または操作における矛盾を特定する機能にあります。
適度に堅牢で、信頼性があり、一貫した LLM は、異なる方法で尋ねられた質問、または異なる人によって尋ねられた質問に対して、意味的に類似した応答を出力する必要があります。
この仮定に基づいて、AuditLLM は、ユーザーが入力した 1 つの質問から、LLM の整合性に関して容易に解釈可能な結果を​​生成します。
一定レベルの不一致は、潜在的な偏見、幻覚、その他の問題の指標であることが示されています。
その後、AuditLLM の出力を使用して、前述の LLM の問題をさらに調査できます。
デモンストレーションと実際の使用を容易にするために、AuditLLM は 2 つの主要なモードを提供します。(1) リアルタイムのクエリに対する応答を分析することにより、LLM を即座に監査できるライブ モード。
(2) 複数のクエリを一度に処理して詳細な分析を行うことで、包括的な LLM 監査を容易にするバッチ モード。
このツールは、標準化された監査プラットフォームを使用して応答を生成する LLM の機能についての理解を深めるため、研究者と一般ユーザーの両方にとって有益です。

要約(オリジナル)

As Large Language Models (LLMs) gain wider adoption in various contexts, it becomes crucial to ensure they are reasonably safe, consistent, and reliable for an application at hand. This may require probing or auditing them. Probing LLMs with varied iterations of a single question could reveal potential inconsistencies in their knowledge or functionality. However, a tool for performing such audits with simple workflow and low technical threshold is lacking. In this demo, we introduce ‘AuditLLM,’ a novel tool designed to evaluate the performance of various LLMs in a methodical way. AuditLLM’s core functionality lies in its ability to test a given LLM by auditing it using multiple probes generated from a single question, thereby identifying any inconsistencies in the model’s understanding or operation. A reasonably robust, reliable, and consistent LLM should output semantically similar responses for a question asked differently or by different people. Based on this assumption, AuditLLM produces easily interpretable results regarding the LLM’s consistencies from a single question that the user enters. A certain level of inconsistency has been shown to be an indicator of potential bias, hallucinations, and other issues. One could then use the output of AuditLLM to further investigate issues with the aforementioned LLM. To facilitate demonstration and practical uses, AuditLLM offers two key modes: (1) Live mode which allows instant auditing of LLMs by analyzing responses to real-time queries; (2) Batch mode which facilitates comprehensive LLM auditing by processing multiple queries at once for in-depth analysis. This tool is beneficial for both researchers and general users, as it enhances our understanding of LLMs’ capabilities in generating responses, using a standardized auditing platform.

arxiv情報

著者 Maryam Amirizaniani,Tanya Roosta,Aman Chadha,Chirag Shah
発行日 2024-02-14 17:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク