要約
MU-Shroom共有タスクを提示します。これは、命令チューニングされた大手言語モデル(LLM)の出力における幻覚やその他の過剰な過剰な間違いの検出に焦点を当てています。
MU-Shroomは、14の言語で汎用LLMに対処し、幻覚検出の問題をスパンラベルのタスクとしてフレーム化します。
多様な方法論を採用している43の参加チームから2,618の提出物を受け取りました。
多数の提出物は、幻覚検出におけるコミュニティの関心を強調しています。
参加システムの結果を提示し、経験的分析を実施して、このタスクの強力なパフォーマンスに寄与する重要な要因を特定します。
また、関連する現在の課題、特に言語間のさまざまな幻覚の程度と、幻覚スパンにラベルを付ける際の高いアノテーターの意見の不一致を強調します。
要約(オリジナル)
We present the Mu-SHROOM shared task which is focused on detecting hallucinations and other overgeneration mistakes in the output of instruction-tuned large language models (LLMs). Mu-SHROOM addresses general-purpose LLMs in 14 languages, and frames the hallucination detection problem as a span-labeling task. We received 2,618 submissions from 43 participating teams employing diverse methodologies. The large number of submissions underscores the interest of the community in hallucination detection. We present the results of the participating systems and conduct an empirical analysis to identify key factors contributing to strong performance in this task. We also emphasize relevant current challenges, notably the varying degree of hallucinations across languages and the high annotator disagreement when labeling hallucination spans.
arxiv情報
著者 | Raúl Vázquez,Timothee Mickus,Elaine Zosa,Teemu Vahtola,Jörg Tiedemann,Aman Sinha,Vincent Segonne,Fernando Sánchez-Vega,Alessandro Raganato,Jindřich Libovický,Jussi Karlgren,Shaoxiong Ji,Jindřich Helcl,Liane Guillou,Ona de Gibert,Jaione Bengoetxea,Joseph Attieh,Marianna Apidianaki |
発行日 | 2025-04-16 11:15:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google