要約
大規模言語モデル (LLM) における幻覚の検出は、その信頼性を確保するために非常に重要です。
この研究では、CLEF ELOQUENT HalluciGen 共有タスクへの参加を紹介します。目標は、幻覚コンテンツの生成と検出の両方を行う評価者を開発することです。
この目的のために、Llama 3、Gemma、GPT-3.5 Turbo、GPT-4 の 4 つの LLM の機能を調査しました。
また、アンサンブル多数決を採用して、検出タスクに 4 つのモデルすべてを組み込みました。
この結果は、幻覚生成および検出タスクの処理におけるこれらの LLM の長所と短所についての貴重な洞察を提供します。
要約(オリジナル)
Hallucination detection in Large Language Models (LLMs) is crucial for ensuring their reliability. This work presents our participation in the CLEF ELOQUENT HalluciGen shared task, where the goal is to develop evaluators for both generating and detecting hallucinated content. We explored the capabilities of four LLMs: Llama 3, Gemma, GPT-3.5 Turbo, and GPT-4, for this purpose. We also employed ensemble majority voting to incorporate all four models for the detection task. The results provide valuable insights into the strengths and weaknesses of these LLMs in handling hallucination generation and detection tasks.
arxiv情報
著者 | Anh Thu Maria Bui,Saskia Felizitas Brech,Natalie Hußfeldt,Tobias Jennert,Melanie Ullrich,Timo Breuer,Narjes Nikzad Khasmakhi,Philipp Schaer |
発行日 | 2024-07-12 10:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google