要約
大規模言語モデル (LLM) は、一貫性があり文脈的に適切なテキストを生成することにある程度の成功を収めていますが、依然として幻覚として知られる重大な課題、つまり入力または外部の知識によって実証されていない情報を生成する傾向があります。
幻覚を軽減するこれまでの取り組みは、高品質のデータセットに基づくモデルの微調整、事実確認メカニズムの組み込み、敵対的トレーニング方法の開発などの技術に焦点を当ててきました。
これらのアプローチはある程度の有望性を示していますが、多くの場合、個々のモデルの出力レベルで問題に対処しており、幻覚に対するモデル間の相互作用の影響は未調査のままです。
この研究では、GPT-4o-Mini モデルの複数のインスタンスが TruthfulQA データセットからの質問に促されて討論のような相互作用を行うという新しい実験フレームワークを通じて、LLM における幻覚現象を調査します。
1 つのモデルは、もっともらしいが誤った回答を生成するように意図的に指示され、他のモデルは真実に応答するように求められます。
この実験は、1 つのモデルによる誤った情報の導入によって、真実の多数派が自分たちの推論をより正当化できるかどうかを評価し、TruthfulQA ベンチマークのパフォーマンスを向上させることができるかどうかを評価するように設計されています。
この調査結果は、モデル間の相互作用が、LLM 出力の精度と堅牢性の向上に関する貴重な洞察を提供し、既存の緩和戦略を補完できることを示唆しています。
要約(オリジナル)
Large language models (LLMs) have achieved a degree of success in generating coherent and contextually relevant text, yet they remain prone to a significant challenge known as hallucination: producing information that is not substantiated by the input or external knowledge. Previous efforts to mitigate hallucinations have focused on techniques such as fine-tuning models on high-quality datasets, incorporating fact-checking mechanisms, and developing adversarial training methods. While these approaches have shown some promise, they often address the issue at the level of individual model outputs, leaving unexplored the effects of inter-model interactions on hallucination. This study investigates the phenomenon of hallucination in LLMs through a novel experimental framework where multiple instances of GPT-4o-Mini models engage in a debate-like interaction prompted with questions from the TruthfulQA dataset. One model is deliberately instructed to generate plausible but false answers while the other models are asked to respond truthfully. The experiment is designed to assess whether the introduction of misinformation by one model can challenge the truthful majority to better justify their reasoning, improving performance on the TruthfulQA benchmark. The findings suggest that inter-model interactions can offer valuable insights into improving the accuracy and robustness of LLM outputs, complementing existing mitigation strategies.
arxiv情報
著者 | Ray Li,Tanishka Bagade,Kevin Martinez,Flora Yasmin,Grant Ayala,Michael Lam,Kevin Zhu |
発行日 | 2024-10-25 11:41:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google