MetaCheckGPT — A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models

要約

大規模言語モデル (LLM) における幻覚は、最近重大な問題になっています。
この方向での最近の取り組みは、Semeval 2024 タスク 6 の共有タスク、SHROOM、幻覚および関連する観察可能な過生成ミスに関する共有タスクです。
このペーパーでは、モデルに依存しないトラックとモデル認識トラックの 2 つのサブタスクでそれぞれ 1 位と 2 位にランクされた、当社の優れたソリューションについて説明します。
私たちは、リーダーボードで最高のスコアを達成するモデルの評価と統合のための LLM のメタリグレッサー フレームワークを提案します。
また、さまざまなトランスフォーマーベースのモデルや、ChatGPT、Vectara などのブラック ボックス手法も実験しています。
さらに、GPT4 を最良のモデルと比較するエラー分析を実行し、前者の限界を示します。

要約(オリジナル)

Hallucinations in large language models (LLMs) have recently become a significant problem. A recent effort in this direction is a shared task at Semeval 2024 Task 6, SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. This paper describes our winning solution ranked 1st and 2nd in the 2 sub-tasks of model agnostic and model aware tracks respectively. We propose a meta-regressor framework of LLMs for model evaluation and integration that achieves the highest scores on the leaderboard. We also experiment with various transformer-based models and black box methods like ChatGPT, Vectara, and others. In addition, we perform an error analysis comparing GPT4 against our best model which shows the limitations of the former.

arxiv情報

著者 Rahul Mehta,Andrew Hoblitzell,Jack O’Keefe,Hyeju Jang,Vasudeva Varma
発行日 2024-04-11 15:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T50, cs.AI, cs.CL, I.2.7 パーマリンク