One vs. Many: Comprehending Accurate Information from Multiple Erroneous and Inconsistent AI Generations

要約

大規模言語モデル (LLM) は非決定的であるため、同じ入力が異なる出力を生成する可能性があり、その一部は間違っていたり幻覚を示したりする可能性があります。
再度実行すると、LLM が自動的に修正され、正しい答えが生成される可能性があります。
残念ながら、LLM を利用したシステムのほとんどは、正しいかどうかにかかわらず、ユーザーが受け入れる単一の結果に頼っています。
LLM に複数の出力を生成させると、意見の相違や代替案を特定するのに役立つ場合があります。
ただし、ユーザーが競合や不一致をどのように解釈するかは明らかではありません。
この目的を達成するために、ユーザーが矛盾する可能性のある複数の出力を受け取ったときに、ユーザーが AI モデルをどのように認識し、生成された情報を理解するかを調査します。
予備調査を通じて、5 種類の出力の不一致を特定しました。
これらのカテゴリに基づいて、情報を求める質問に対して LLM で生成された 1 つ以上の文章を参加者に与える研究 (N=252) を実施しました。
LLM によって生成された複数の出力内の不一致により、参加者の認識される AI 能力が低下すると同時に、与えられた情報の理解力が向上することがわかりました。
具体的には、矛盾によるこのプラスの効果は、3 つの文章を読んだ参加者に比べて、2 つの文章を読んだ参加者で最も顕著であることが観察されました。
これらの発見に基づいて、LLM 出力の不一致を欠点とみなすのではなく、潜在的な不一致を明らかにして、これらのモデルの制限を透過的に示し、重要な LLM の使用を促進できるという設計上の示唆を示します。

要約(オリジナル)

As Large Language Models (LLMs) are nondeterministic, the same input can generate different outputs, some of which may be incorrect or hallucinated. If run again, the LLM may correct itself and produce the correct answer. Unfortunately, most LLM-powered systems resort to single results which, correct or not, users accept. Having the LLM produce multiple outputs may help identify disagreements or alternatives. However, it is not obvious how the user will interpret conflicts or inconsistencies. To this end, we investigate how users perceive the AI model and comprehend the generated information when they receive multiple, potentially inconsistent, outputs. Through a preliminary study, we identified five types of output inconsistencies. Based on these categories, we conducted a study (N=252) in which participants were given one or more LLM-generated passages to an information-seeking question. We found that inconsistency within multiple LLM-generated outputs lowered the participants’ perceived AI capacity, while also increasing their comprehension of the given information. Specifically, we observed that this positive effect of inconsistencies was most significant for participants who read two passages, compared to those who read three. Based on these findings, we present design implications that, instead of regarding LLM output inconsistencies as a drawback, we can reveal the potential inconsistencies to transparently indicate the limitations of these models and promote critical LLM usage.

arxiv情報

著者 Yoonjoo Lee,Kihoon Son,Tae Soo Kim,Jisu Kim,John Joon Young Chung,Eytan Adar,Juho Kim
発行日 2024-05-09 07:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク