THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models

要約

事実に誤りのあるコンテンツの生成である幻覚は、大規模言語モデル (LLM) におけるますます大きな課題となっています。
既存の検出および軽減方法は孤立していることが多く、標準化されたパイプラインが不足しているため、ドメイン固有のニーズには不十分です。
この文書では、このギャップに対処する統合フレームワークおよびライブラリである THaMES (幻覚緩和および評価ツール) を紹介します。
THaMES は、LLM の幻覚を評価および軽減するためのエンドツーエンドのソリューションを提供し、自動化されたテスト セットの生成、多面的なベンチマーク、および適応可能な軽減戦略を備えています。
あらゆるコーパスからのテスト セットの作成を自動化し、バッチ処理、加重サンプリング、反事実検証などの技術を通じて高いデータ品質、多様性、コスト効率を確保します。
THaMES は、テキスト生成やバイナリ分類を含むさまざまなタスクにわたって幻覚を検出して軽減するモデルの能力を評価し、インコンテキスト学習 (ICL)、検索拡張生成 (RAG)、パラメーター効率の良い微調整 (PEFT) などの最適な軽減戦略を適用します。
)。
学術論文、政治ニュース、ウィキペディアの知識ベースを使用した最先端の LLM の評価では、GPT-4o のような商用モデルは ICL よりも RAG の恩恵を受けているのに対し、Llama-3.1-8B のようなオープンウェイト モデルは明らかになりました。
インストラクトとミストラル・ニモは、ICL からさらに多くのことを得ることができます。
さらに、PEFT は両方の評価タスクにおいて Llama-3.1-8B-Instruct のパフォーマンスを大幅に向上させます。

要約(オリジナル)

Hallucination, the generation of factually incorrect content, is a growing challenge in Large Language Models (LLMs). Existing detection and mitigation methods are often isolated and insufficient for domain-specific needs, lacking a standardized pipeline. This paper introduces THaMES (Tool for Hallucination Mitigations and EvaluationS), an integrated framework and library addressing this gap. THaMES offers an end-to-end solution for evaluating and mitigating hallucinations in LLMs, featuring automated test set generation, multifaceted benchmarking, and adaptable mitigation strategies. It automates test set creation from any corpus, ensuring high data quality, diversity, and cost-efficiency through techniques like batch processing, weighted sampling, and counterfactual validation. THaMES assesses a model’s ability to detect and reduce hallucinations across various tasks, including text generation and binary classification, applying optimal mitigation strategies like In-Context Learning (ICL), Retrieval Augmented Generation (RAG), and Parameter-Efficient Fine-tuning (PEFT). Evaluations of state-of-the-art LLMs using a knowledge base of academic papers, political news, and Wikipedia reveal that commercial models like GPT-4o benefit more from RAG than ICL, while open-weight models like Llama-3.1-8B-Instruct and Mistral-Nemo gain more from ICL. Additionally, PEFT significantly enhances the performance of Llama-3.1-8B-Instruct in both evaluation tasks.

arxiv情報

著者 Mengfei Liang,Archish Arun,Zekun Wu,Cristian Munoz,Jonathan Lutch,Emre Kazim,Adriano Koshiyama,Philip Treleaven
発行日 2024-09-17 16:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク