ANHALTEN: Cross-Lingual Transfer for German Token-Level Reference-Free Hallucination Detection

要約

トークンレベルの参照不要の幻覚検出に関する研究は、主に他の言語の堅牢なデータセットが不足しているため、主に英語に焦点を当ててきました。
このため、この重要な NLP アプリケーションにおける言語を越えた伝達の有効性についての体系的な調査が妨げられてきました。
このギャップに対処するために、英語の幻覚検出データセットをドイツ語に拡張する新しい評価データセットである ANHALTEN を導入します。
私たちの知る限り、これはトークンレベルの参照不要の幻覚検出のための言語間伝達を調査した最初の研究です。
ANHALTEN には、類似した (つまり、元の英語のインスタンスと直接比較できる) ドイツ語のゴールド注釈が含まれています。
私たちは、いくつかの著名な言語間伝達アプローチをベンチマークし、たとえ後続の文脈がなくても、文脈の長さが長いほどドイツ語の幻覚検出が向上することを実証しました。
重要なのは、サンプル効率の良い数ショット転送が、ほとんどのセットアップで最も効果的なアプローチであることを示していることです。
これは、リファレンスフリーの幻覚検出において、ターゲット言語での注釈の労力を最小限に抑えることの実際的な利点を強調しています。
言語を超えたトークンレベルの参照不要の幻覚検出に関する将来の研究を促進することを目的として、ANHALTEN を一般公開します: https://github.com/janekh24/anhalten

要約(オリジナル)

Research on token-level reference-free hallucination detection has predominantly focused on English, primarily due to the scarcity of robust datasets in other languages. This has hindered systematic investigations into the effectiveness of cross-lingual transfer for this important NLP application. To address this gap, we introduce ANHALTEN, a new evaluation dataset that extends the English hallucination detection dataset to German. To the best of our knowledge, this is the first work that explores cross-lingual transfer for token-level reference-free hallucination detection. ANHALTEN contains gold annotations in German that are parallel (i.e., directly comparable to the original English instances). We benchmark several prominent cross-lingual transfer approaches, demonstrating that larger context length leads to better hallucination detection in German, even without succeeding context. Importantly, we show that the sample-efficient few-shot transfer is the most effective approach in most setups. This highlights the practical benefits of minimal annotation effort in the target language for reference-free hallucination detection. Aiming to catalyze future research on cross-lingual token-level reference-free hallucination detection, we make ANHALTEN publicly available: https://github.com/janekh24/anhalten

arxiv情報

著者 Janek Herrlein,Chia-Chien Hung,Goran Glavaš
発行日 2024-07-18 17:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク