要約
この研究では、AI が生成したコンテンツ内の幻覚を検出して修正する大規模言語モデル (LLM) エージェントの能力を調査します。
主要エージェントは、Flipfloppidy という名前の架空のデンマーク人アーティストに関するブログを作成する任務を負っていました。その後、別のエージェントによって事実上の誤りがないかレビューされました。
ほとんどの LLM はこのアーティストの存在を幻覚しました。
プライマリ エージェントとレビュー エージェントのさまざまな組み合わせを含む 4,900 回のテスト実行を通じて、Llama3-70b や GPT-4 バリアントなどの高度な AI モデルは、幻覚の識別においてほぼ完璧な精度を実証し、フィードバック後に 85% ~ 100% のケースで出力を正常に修正しました。
これらの発見は、生成されたコンテンツの精度と信頼性を大幅に向上させる高度な AI モデルの可能性を強調し、AI ワークフロー オーケストレーションを改善するための有望なアプローチを提供します。
要約(オリジナル)
This study explores the ability of Large Language Model (LLM) agents to detect and correct hallucinations in AI-generated content. A primary agent was tasked with creating a blog about a fictional Danish artist named Flipfloppidy, which was then reviewed by another agent for factual inaccuracies. Most LLMs hallucinated the existence of this artist. Across 4,900 test runs involving various combinations of primary and reviewing agents, advanced AI models such as Llama3-70b and GPT-4 variants demonstrated near-perfect accuracy in identifying hallucinations and successfully revised outputs in 85% to 100% of cases following feedback. These findings underscore the potential of advanced AI models to significantly enhance the accuracy and reliability of generated content, providing a promising approach to improving AI workflow orchestration.
arxiv情報
著者 | Ted Kwartler,Matthew Berman,Alan Aqrawi |
発行日 | 2024-10-25 17:24:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google