Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots

要約

私は検出技術と軽減技術を組み合わせて、大規模言語モデル (LLM) の幻覚に対処します。
軽減は質問応答型の検索拡張生成 (RAG) フレームワークで実現され、検出は応答の文脈上の関連性を考慮したネガティブ欠落情報スコアリング システム (NMISS) の導入によって行われます。
RAG は外部データに基づいた回答を提供することで幻覚を軽減しますが、NMISS は、従来の指標が文脈的に正確な回答を誤って幻覚としてフラグ付けするケースを特定することで評価を改良します。
私は LLM のパフォーマンスを評価するためのコンテキストとしてイタリアの健康ニュース記事を使用しています。
結果は、Gemma2 と GPT-4 が他のモデルよりも優れたパフォーマンスを示し、GPT-4 が参照応答と厳密に一致する応答を生成することを示しています。
Llama2、Llama3、Mistral などの中間層モデルは NMISS から大きな恩恵を受けており、より豊富なコンテキスト情報を提供する機能が強調されています。
この組み合わせたアプローチは、現実世界の医療タスクやその他の領域に応用することで、LLM における幻覚の軽減とより正確な評価に関する新たな洞察を提供します。

要約(オリジナル)

I combine detection and mitigation techniques to addresses hallucinations in Large Language Models (LLMs). Mitigation is achieved in a question-answering Retrieval-Augmented Generation (RAG) framework while detection is obtained by introducing the Negative Missing Information Scoring System (NMISS), which accounts for contextual relevance in responses. While RAG mitigates hallucinations by grounding answers in external data, NMISS refines the evaluation by identifying cases where traditional metrics incorrectly flag contextually accurate responses as hallucinations. I use Italian health news articles as context to evaluate LLM performance. Results show that Gemma2 and GPT-4 outperform the other models, with GPT-4 producing answers closely aligned with reference responses. Mid-tier models, such as Llama2, Llama3, and Mistral benefit significantly from NMISS, highlighting their ability to provide richer contextual information. This combined approach offers new insights into the reduction and more accurate assessment of hallucinations in LLMs, with applications in real-world healthcare tasks and other domains.

arxiv情報

著者 Maria Paola Priola
発行日 2024-12-05 15:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク