AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis

要約

この論文では、SemEval-2024 タスク-6 – SHROOM、幻覚および関連する観察可能な過生成ミスに関する共有タスクに対する私たちのチームの提出物を紹介します。
参加者は、流暢な過生成幻覚の症例を特定するために二値分類を実行するように依頼されました。
私たちの実験には、幻覚検出に関する事前トレーニング済みモデルと自然言語推論 (NLI) モデルの微調整が含まれていました。
最も成功した戦略には、これらのモデルのアンサンブルを作成することが含まれており、その結果、モデルに依存しないデータセットとモデルを認識したデータセットでそれぞれ 77.8% と 79.9% の精度が得られ、主催者のベースラインを上回り、最高のパフォーマンスの結果と比較した場合に注目に値する結果を達成しました。
コンテストでは、それぞれ 84.7% と 81.3% の精度が報告されました。

要約(オリジナル)

In this paper, we present our team’s submissions for SemEval-2024 Task-6 – SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. The participants were asked to perform binary classification to identify cases of fluent overgeneration hallucinations. Our experimentation included fine-tuning a pre-trained model on hallucination detection and a Natural Language Inference (NLI) model. The most successful strategy involved creating an ensemble of these models, resulting in accuracy rates of 77.8% and 79.9% on model-agnostic and model-aware datasets respectively, outperforming the organizers’ baseline and achieving notable results when contrasted with the top-performing results in the competition, which reported accuracies of 84.7% and 81.3% correspondingly.

arxiv情報

著者 Natalia Grigoriadou,Maria Lymperaiou,Giorgos Filandrianos,Giorgos Stamou
発行日 2024-04-12 12:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク