要約
この論文では、幻覚の検出に焦点を当てた共有タスクである SHROOM の結果、つまり流暢ではあるが不正確な自然言語生成 (NLG) システムからの出力を紹介します。
このような過剰世代のケースは、多くの場合、正確さがミッションクリティカルである多くの NLG アプリケーションを危険にさらします。
共有タスクは、機械翻訳、言い換え生成、定義モデリングという 3 つの NLP タスクにまたがる、それぞれ 5 人のアノテーターによってラベル付けされた 4000 個のモデル出力の新しく構築されたデータセットを使用して実行されました。
この共有タスクには、42 チームにグループ化された合計 58 人の異なるユーザーが取り組み、そのうち 27 人がシステム説明文書を書くことを選択しました。
合計すると、共有タスクの両方のトラックで 300 を超える予測セットを送信しました。
私たちは、このアプローチへの取り組み方について多くの重要な傾向を観察しています。多くの参加者は少数のモデルに依存しており、微調整またはゼロショット プロンプト戦略の合成データに依存していることがよくあります。
大多数のチームは私たちが提案したベースライン システムを上回りましたが、最高得点システムのパフォーマンスは、より困難な項目をランダムに処理した場合と依然として一致しています。
要約(オリジナル)
This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation (NLG) systems that are fluent, yet inaccurate. Such cases of overgeneration put in jeopardy many NLG applications, where correctness is often mission-critical. The shared task was conducted with a newly constructed dataset of 4000 model outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine translation, paraphrase generation and definition modeling. The shared task was tackled by a total of 58 different users grouped in 42 teams, out of which 27 elected to write a system description paper; collectively, they submitted over 300 prediction sets on both tracks of the shared task. We observe a number of key trends in how this approach was tackled — many participants rely on a handful of model, and often rely either on synthetic data for fine-tuning or zero-shot prompting strategies. While a majority of the teams did outperform our proposed baseline system, the performances of top-scoring systems are still consistent with a random handling of the more challenging items.
arxiv情報
著者 | Timothee Mickus,Elaine Zosa,Raúl Vázquez,Teemu Vahtola,Jörg Tiedemann,Vincent Segonne,Alessandro Raganato,Marianna Apidianaki |
発行日 | 2024-03-12 15:06:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google