Can Unconfident LLM Annotations Be Used for Confident Conclusions?

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって人間の評価者と高い一致を示しており、人間のデータ収集の課題を軽減する可能性を示しています。
計算社会科学 (CSS) では、遅くて高価な人間によるアノテーションを補完するために、研究者が LLM アノテーションをますます活用しています。
それでも、下流の結論の妥当性を損なうことなく LLM アノテーションを収集して使用するためのガイドラインは依然として限られています。
信頼駆動推論を導入します。LLM アノテーションと LLM 信頼指標を組み合わせて、どのヒューマン アノテーションを収集するかを戦略的に選択する方法です。その目的は、必要なヒューマン アノテーションの数を減らしながら、正確な統計的推定値と証明可能な有効な信頼区間を生成することです。
私たちのアプローチには、低品質の LLM アノテーションに対する保護手段が組み込まれており、結論が有効であり、人間によるアノテーションのみに依存した場合と比べて正確であることが保証されます。
私たちは、テキストの丁寧さ、スタンス、バイアスという 3 つの CSS 設定にわたる統計推定タスクにおけるベースラインに対する信頼駆動推論の有効性を実証し、必要な人間によるアノテーションの数をそれぞれ 25% 以上削減します。
デモンストレーションには CSS 設定を使用しますが、Confidence-Driven Inference を使用して、幅広い NLP 問題にわたるほとんどの標準量を推定できます。

要約(オリジナル)

Large language models (LLMs) have shown high agreement with human raters across a variety of tasks, demonstrating potential to ease the challenges of human data collection. In computational social science (CSS), researchers are increasingly leveraging LLM annotations to complement slow and expensive human annotations. Still, guidelines for collecting and using LLM annotations, without compromising the validity of downstream conclusions, remain limited. We introduce Confidence-Driven Inference: a method that combines LLM annotations and LLM confidence indicators to strategically select which human annotations should be collected, with the goal of producing accurate statistical estimates and provably valid confidence intervals while reducing the number of human annotations needed. Our approach comes with safeguards against LLM annotations of poor quality, guaranteeing that the conclusions will be both valid and no less accurate than if we only relied on human annotations. We demonstrate the effectiveness of Confidence-Driven Inference over baselines in statistical estimation tasks across three CSS settings–text politeness, stance, and bias–reducing the needed number of human annotations by over 25% in each. Although we use CSS settings for demonstration, Confidence-Driven Inference can be used to estimate most standard quantities across a broad range of NLP problems.

arxiv情報

著者 Kristina Gligorić,Tijana Zrnic,Cinoo Lee,Emmanuel J. Candès,Dan Jurafsky
発行日 2024-08-27 17:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク