Supporting Human-AI Collaboration in Auditing LLMs with LLMs

要約

大規模な言語モデルは、社会技術システムへの展開を通じて、社会にますます普及し、遍在するようになってきています。
しかし、これらの言語モデルは、分類であろうと生成であろうと、偏っていて無責任に動作し、大規模に人々に害を及ぼすことがわかっています。
これらの言語モデルを厳密に監査することが重要です。
既存の監査ツールは、人間と AI のいずれかまたは両方を活用して障害を検出します。
この研究では、人間と AI のコラボレーションとセンスメイキングに関する文献を活用し、安全で公正な AI の研究専門家へのインタビューを実施して、生成ツールを利用した監査ツール AdaTest (Ribeiro and Lundberg、2022) を構築しています。
大規模言語モデル (LLM)。
設計プロセスを通じて、共同監査において人間と生成モデルの補完的な強みを活用するためのセンスメイキングと人間と AI のコミュニケーションの重要性を強調します。
拡張ツール AdaTest++ の有効性を評価するために、OpenAI の GPT-3 と Azure のセンチメント分析モデルという 2 つの商用言語モデルを監査する参加者によるユーザー調査を実施しました。
定性分析では、AdaTest++ が図式化、仮説形成、テストなどの人間の強みを効果的に活用していることが示されています。
さらに、参加者は私たちのツールを使用して、2 つのタスクにわたる 26 の異なるトピックをカバーするさまざまな障害モードを特定しました。これらは、これまでに正式な監査で示されたものや、以前は過小報告されていたものでもありました。

要約(オリジナル)

Large language models are becoming increasingly pervasive and ubiquitous in society via deployment in sociotechnical systems. Yet these language models, be it for classification or generation, have been shown to be biased and behave irresponsibly, causing harm to people at scale. It is crucial to audit these language models rigorously. Existing auditing tools leverage either or both humans and AI to find failures. In this work, we draw upon literature in human-AI collaboration and sensemaking, and conduct interviews with research experts in safe and fair AI, to build upon the auditing tool: AdaTest (Ribeiro and Lundberg, 2022), which is powered by a generative large language model (LLM). Through the design process we highlight the importance of sensemaking and human-AI communication to leverage complementary strengths of humans and generative models in collaborative auditing. To evaluate the effectiveness of the augmented tool, AdaTest++, we conduct user studies with participants auditing two commercial language models: OpenAI’s GPT-3 and Azure’s sentiment analysis model. Qualitative analysis shows that AdaTest++ effectively leverages human strengths such as schematization, hypothesis formation and testing. Further, with our tool, participants identified a variety of failures modes, covering 26 different topics over 2 tasks, that have been shown before in formal audits and also those previously under-reported.

arxiv情報

著者 Charvi Rastogi,Marco Tulio Ribeiro,Nicholas King,Harsha Nori,Saleema Amershi
発行日 2023-11-30 16:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク