DELPHI: Data for Evaluating LLMs’ Performance in Handling Controversial Issues

要約

論争は私たちの時代精神を反映しており、あらゆる言説にとって重要な側面です。
会話システムとしての大規模言語モデル (LLM) の台頭により、さまざまな質問に対する答えを得るために、これらのシステムに対する一般の人々の依存度が高まっています。
したがって、これらのモデルが進行中の議論に関連する質問にどのように応答するかを体系的に調査することが重要です。
しかし、現代の議論を反映した人間による注釈付きラベルを提供するそのようなデータセットはほとんど存在しません。
この分野の研究を促進するために、公開されている Quora 質問ペア データセットを拡張して、物議を醸す質問データセットの新しい構築を提案します。
このデータセットは、知識の最新性、安全性、公平性、偏見に関する課題を提示しています。
このデータセットのサブセットを使用してさまざまな LLM を評価し、物議を醸す問題への対処方法や採用するスタンスを明らかにします。
この研究は最終的に、物議を醸す問題とLLMの相互作用の理解に貢献し、複雑な社会的議論の理解と処理の改善への道を開きます。

要約(オリジナル)

Controversy is a reflection of our zeitgeist, and an important aspect to any discourse. The rise of large language models (LLMs) as conversational systems has increased public reliance on these systems for answers to their various questions. Consequently, it is crucial to systematically examine how these models respond to questions that pertaining to ongoing debates. However, few such datasets exist in providing human-annotated labels reflecting the contemporary discussions. To foster research in this area, we propose a novel construction of a controversial questions dataset, expanding upon the publicly released Quora Question Pairs Dataset. This dataset presents challenges concerning knowledge recency, safety, fairness, and bias. We evaluate different LLMs using a subset of this dataset, illuminating how they handle controversial issues and the stances they adopt. This research ultimately contributes to our understanding of LLMs’ interaction with controversial issues, paving the way for improvements in their comprehension and handling of complex societal debates.

arxiv情報

著者 David Q. Sun,Artem Abzaliev,Hadas Kotek,Zidi Xiu,Christopher Klein,Jason D. Williams
発行日 2023-10-27 13:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク