Model Hemorrhage and the Robustness Limits of Large Language Models

要約

大規模な言語モデル(LLMS)は、自然言語処理タスク全体で強力なパフォーマンスを示しますが、量子化、剪定、またはデコード戦略調整を通じて展開のために変更された場合、大きなパフォーマンス劣化を受けます。
この現象をモデル出血として定義します – パラメーターの変化と建築の変化によって引き起こされるパフォーマンスの低下。
さまざまなLLMフレームワークの体系的な分析を通じて、主要な脆弱性パターンを特定します。レイヤー拡張は注意メカニズムを頻繁に破壊し、圧縮技術は情報損失カスケードを誘発し、調整を解読し、予測の発散を増幅します。
私たちの調査により、変圧器のアーキテクチャは、修正タイプ全体の出血の重症度を決定する固有の堅牢性しきい値を示すことが明らかになりました。
3つの緩和戦略を提案します。グラジエントアウェアプルーニングは重要な重量経路を保存し、動的量子化スケーリングは活性化の完全性を維持し、キャリブレーションをデコード生成軌跡を元のモデル分布に整列させます。
この作業は、適応中にモデルの安定性を評価するための基礎メトリックを確立し、効率的なLLM展開を可能にしながらパフォーマンスを維持するための実用的なガイドラインを提供します。
私たちの調査結果は、特に大規模な言語モデルの建築変換の下でのニューラルネットワークの回復力の理解を促進します。

要約(オリジナル)

Large language models (LLMs) demonstrate strong performance across natural language processing tasks, yet undergo significant performance degradation when modified for deployment through quantization, pruning, or decoding strategy adjustments. We define this phenomenon as model hemorrhage – performance decline caused by parameter alterations and architectural changes. Through systematic analysis of various LLM frameworks, we identify key vulnerability patterns: layer expansion frequently disrupts attention mechanisms, compression techniques induce information loss cascades, and decoding adjustments amplify prediction divergences. Our investigation reveals transformer architectures exhibit inherent robustness thresholds that determine hemorrhage severity across modification types. We propose three mitigation strategies: gradient-aware pruning preserves critical weight pathways, dynamic quantization scaling maintains activation integrity, and decoding calibration aligns generation trajectories with original model distributions. This work establishes foundational metrics for evaluating model stability during adaptation, providing practical guidelines for maintaining performance while enabling efficient LLM deployment. Our findings advance understanding of neural network resilience under architectural transformations, particularly for large-scale language models.

arxiv情報

著者 Ziyang Ma,Zuchao Li,Lefei Zhang,Gui-Song Xia,Bo Du,Liangpei Zhang,Dacheng Tao
発行日 2025-03-31 10:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Model Hemorrhage and the Robustness Limits of Large Language Models はコメントを受け付けていません

BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation

要約

会話におけるマルチモーダル感情認識(Merc)は、会話の各発言の感情ラベルを識別するタスクであり、共感マシンを開発するために不可欠です。
現在のMLLMベースのMerc研究は、主にスピーカーのテキストまたはボーカルの特性のキャプチャに焦点を当てていますが、ビデオ由来の動作情報の重要性を無視しています。
テキストやオーディオ入力とは異なり、豊かな表情、ボディーランゲージ、姿勢を備えたビデオ学習ビデオは、より正確な感情予測のためにモデルに感情トリガー信号を提供します。
この論文では、微妙な顔の微小表現、ボディーランゲージ、姿勢を含むスピーカーの行動をバニラMLLMベースのMercモデルに組み込み、それによって会話中の感情的ダイナミクスのモデルを促進するために、新しい行動を意識したMLLMベースのフレームワーク(BEMERC)を提案します。
さらに、BEMERCは2段階の指導チューニング戦略を採用して、Merc Predictorのエンドツーエンドトレーニングのための会話シナリオにモデルを拡張します。
実験は、BEMERCが2つのベンチマークデータセットの最先端の方法よりも優れたパフォーマンスを達成し、Mercのビデオ由来行動情報の重要性に関する詳細な議論を提供することを示しています。

要約(オリジナル)

Multimodal emotion recognition in conversation (MERC), the task of identifying the emotion label for each utterance in a conversation, is vital for developing empathetic machines. Current MLLM-based MERC studies focus mainly on capturing the speaker’s textual or vocal characteristics, but ignore the significance of video-derived behavior information. Different from text and audio inputs, learning videos with rich facial expression, body language and posture, provides emotion trigger signals to the models for more accurate emotion predictions. In this paper, we propose a novel behavior-aware MLLM-based framework (BeMERC) to incorporate speaker’s behaviors, including subtle facial micro-expression, body language and posture, into a vanilla MLLM-based MERC model, thereby facilitating the modeling of emotional dynamics during a conversation. Furthermore, BeMERC adopts a two-stage instruction tuning strategy to extend the model to the conversations scenario for end-to-end training of a MERC predictor. Experiments demonstrate that BeMERC achieves superior performance than the state-of-the-art methods on two benchmark datasets, and also provides a detailed discussion on the significance of video-derived behavior information in MERC.

arxiv情報

著者 Yumeng Fu,Junjie Wu,Zhongjie Wang,Meishan Zhang,Yulin Wu,Bingquan Liu
発行日 2025-03-31 12:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation はコメントを受け付けていません

The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions

要約

最近の論文では、層の正規化(LN)のドロップイン置換として動的タン(DYT)を提案しています。
この方法は、実用的な観点から経験的に十分に動機付けられ、魅力的ですが、理論的基盤がありません。
この作業では、層の正規化と動的活性化関数の間の数学的関係に光を当てました。
特に、LNからDYTを導き出し、そうするために明確に定義された近似が必要であることを示します。
上記の近似をドロップすることにより、代替の活性化関数が取得され、これを動的逆平方根単位(dyisru)と呼びます。
Dyisruは層の正規化の正確な対応物であり、DYTよりも実際にLNに似ていることを数値的に示します。

要約(オリジナル)

A recent paper proposes Dynamic Tanh (DyT) as a drop-in replacement for layer normalization (LN). Although the method is empirically well-motivated and appealing from a practical point of view, it lacks a theoretical foundation. In this work, we shed light on the mathematical relationship between layer normalization and dynamic activation functions. In particular, we derive DyT from LN and show that a well-defined approximation is needed to do so. By dropping said approximation, an alternative activation function is obtained, which we call Dynamic Inverse Square Root Unit (DyISRU). DyISRU is the exact counterpart of layer normalization, and we demonstrate numerically that it indeed resembles LN more accurately than DyT does.

arxiv情報

著者 Felix Stollenwerk
発行日 2025-03-31 12:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions はコメントを受け付けていません

Comparing representations of long clinical texts for the task of patient note-identification

要約

この論文では、匿名化された臨床ノートを対応する患者に正確に一致させることを含む患者ノート識別の課題に対処します。
このタスクには、堅牢な患者レベルの表現が必要な重複レコードの検出と患者の類似性分析など、幅広いアプリケーションがあります。
階層的な注意ネットワーク(HAN)、3レベルの階層変圧器ネットワーク(HTN)、ロングフォーマー、および高度なBERTベースのモデルなど、さまざまな埋め込み方法を調査し、中程度の臨床テキストを効果的に処理する能力に焦点を当てています。
さらに、ワードレベルの埋め込みを患者レベルの表現に集約するためのさまざまなプーリング戦略(平均、max、および平均_max)を評価し、モデルのパフォーマンスに対するスライドウィンドウの影響を調べます。
我々の結果は、BERTベースの埋め込みが、特に長い臨床ノートの処理や微妙な患者の表現のキャプチャにおいて、従来の階層モデルと階層モデルよりも優れていることを示しています。
プーリング戦略の中で、Mean_Maxプーリングは一貫して最良の結果をもたらし、臨床ノートから重要な機能をキャプチャする能力を強調しています。
さらに、模倣データセットとネッカー病院の両方の病院データウェアハウスの両方で結果を再現することは、実世界のアプリケーションに対するこれらのアプローチの一般化可能性を示しており、患者の識別と患者レベルのモデリングの強化における埋め込み方法と集約戦略の両方の重要性を強調しています。

要約(オリジナル)

In this paper, we address the challenge of patient-note identification, which involves accurately matching an anonymized clinical note to its corresponding patient, represented by a set of related notes. This task has broad applications, including duplicate records detection and patient similarity analysis, which require robust patient-level representations. We explore various embedding methods, including Hierarchical Attention Networks (HAN), three-level Hierarchical Transformer Networks (HTN), LongFormer, and advanced BERT-based models, focusing on their ability to process mediumto-long clinical texts effectively. Additionally, we evaluate different pooling strategies (mean, max, and mean_max) for aggregating wordlevel embeddings into patient-level representations and we examine the impact of sliding windows on model performance. Our results indicate that BERT-based embeddings outperform traditional and hierarchical models, particularly in processing lengthy clinical notes and capturing nuanced patient representations. Among the pooling strategies, mean_max pooling consistently yields the best results, highlighting its ability to capture critical features from clinical notes. Furthermore, the reproduction of our results on both MIMIC dataset and Necker hospital data warehouse illustrates the generalizability of these approaches to real-world applications, emphasizing the importance of both embedding methods and aggregation strategies in optimizing patient-note identification and enhancing patient-level modeling.

arxiv情報

著者 Safa Alsaidi,Marc Vincent,Olivia Boyer,Nicolas Garcelon,Miguel Couceiro,Adrien Coulet
発行日 2025-03-31 12:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Comparing representations of long clinical texts for the task of patient note-identification はコメントを受け付けていません

You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation

要約

翻訳の目標は、人間であろうと機械によるものであろうと、ソース言語でいくつかのテキストが与えられ、同時にターゲット言語でテキストを作成します。
ただし、機械翻訳コミュニティの研究者は通常、セマンティックの精度と出力の自然性を同時にキャプチャすることを目的とした単一スコアを使用して、翻訳を評価します。
この論文では、情報理論の最近の進歩に基づいて、このようなシングルスコアの要約がシステムの真のパフォーマンスの完全な画像を提供しないことを示すことを数学的に証明し、経験的に実証します。
具体的には、正確性と自然性の間にトレードオフが存在することを証明し、WMT24共有タスクへの提出を評価することによりそれを実証します。
私たちの調査結果は、特定の精度メトリック(BLEUなど)の翻訳システムを最適化することでシステムの自然さを改善する一方で、メトリックに「過剰適合」するという観察など、よく知られている経験的現象を説明するのに役立ちます。
したがって、翻訳の評価方法の変更を提唱します。単一の数値を使用してシステムを比較するのではなく、精度の自然性平面で比較する必要があります。

要約(オリジナル)

The goal of translation, be it by human or by machine, is, given some text in a source language, to produce text in a target language that simultaneously 1) preserves the meaning of the source text and 2) achieves natural expression in the target language. However, researchers in the machine translation community usually assess translations using a single score intended to capture semantic accuracy and the naturalness of the output simultaneously. In this paper, we build on recent advances in information theory to mathematically prove and empirically demonstrate that such single-score summaries do not and cannot give the complete picture of a system’s true performance. Concretely, we prove that a tradeoff exists between accuracy and naturalness and demonstrate it by evaluating the submissions to the WMT24 shared task. Our findings help explain well-known empirical phenomena, such as the observation that optimizing translation systems for a specific accuracy metric (like BLEU) initially improves the system’s naturalness, while “overfitting” the system to the metric can significantly degrade its naturalness. Thus, we advocate for a change in how translations are evaluated: rather than comparing systems using a single number, they should be compared on an accuracy-naturalness plane.

arxiv情報

著者 Gergely Flamich,David Vilar,Jan-Thorsten Peter,Markus Freitag
発行日 2025-03-31 12:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation はコメントを受け付けていません

Banyan: Improved Representation Learning with Explicit Structure

要約

Banyanは、明示的な階層構造を活用することにより、意味表現を効率的に学習するモデルです。
トランスフォーマーは大規模に優れている間、彼らは低リソースの設定で苦労しています。
逆に、最近の構造化されたモデルは効率的な学習者として有望であることを示していますが、パフォーマンスがありません。
Banyanは、このギャップを2つの重要な革新で橋渡しします:絡み合った階層ツリー構造と斜めのメッセージの渡されたメッセージの渡され、14の非編集パラメーターでより大きなトランスモデルを上回ることができます。
低リソースの設定で優れており、過小評価されている言語の実行可能な代替品を提供し、リソースが制約された環境で効率的で解釈可能なNLPの可能性を強調します。

要約(オリジナル)

We present Banyan, a model that efficiently learns semantic representations by leveraging explicit hierarchical structure. While transformers excel at scale, they struggle in low-resource settings. Conversely recent structured models have shown promise as efficient learners, but lack performance. Banyan bridges this gap with two key innovations: an entangled hierarchical tree structure and diagonalized message passing, enabling it to outperform larger transformer models with just 14 non-embedding parameters. It excels in low-resource settings, offering a viable alternative for under-represented languages and highlighting its potential for efficient, interpretable NLP in resource-constrained environments.

arxiv情報

著者 Mattia Opper,N. Siddharth
発行日 2025-03-31 12:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Banyan: Improved Representation Learning with Explicit Structure はコメントを受け付けていません

Crossing Boundaries: Leveraging Semantic Divergences to Explore Cultural Novelty in Cooking Recipes

要約

ノベルティモデリングと検出は、自然言語処理(NLP)の中心的なトピックであり、推奨システムや自動要約などの多くのタスクの中心です。
これには、以前に既知の情報から何らかの形で逸脱するテキストの識別を識別することが含まれます。
しかし、ノベルティは、各個人の世界の理解に基づいているため、経験の関連性と質の質のユニークな認識の重要な決定要因でもあります。
社会的要因、特に文化的背景は、目新しさと革新の認識に大きな影響を与えます。
文化的な目新しさは、異なるコミュニティ間の距離によって形作られるように、顕著性と目新しさの違いから生じます。
文化の多様性は人工知能(AI)の注目を集めていますが、文化的な斬新さを定量化するための堅牢な指標の欠如は、これらの相違のより深い理解を妨げます。
このギャップは、計算フレームワーク内の文化的な違いを定量化および理解することを制限します。
これに対処するために、社会学と管理からの知識を統合する学際的な枠組みを提案します。
私たちのアプローチの中心は、500皿と約100,000の調理レシピで構成される新しいデータセットであるGlobalFusionです。150か国以上からの文化的適応を獲得しています。
斬新さのためにジェンセンシャノンの分岐メトリックのセットを導入することにより、このデータセットを活用して、あるコミュニティからのレシピが別の文化的背景を持つ別のコミュニティによって変更されたときにテキストの発散を分析します。
結果は、私たちの文化的な斬新な指標と、言語的、宗教的、地理的距離に基づいた確立された文化的尺度との間に重要な相関関係を明らかにしています。
私たちの調査結果は、AIの文化的多様性の理解と測定を進めるための枠組みの可能性を強調しています。

要約(オリジナル)

Novelty modeling and detection is a core topic in Natural Language Processing (NLP), central to numerous tasks such as recommender systems and automatic summarization. It involves identifying pieces of text that deviate in some way from previously known information. However, novelty is also a crucial determinant of the unique perception of relevance and quality of an experience, as it rests upon each individual’s understanding of the world. Social factors, particularly cultural background, profoundly influence perceptions of novelty and innovation. Cultural novelty arises from differences in salience and novelty as shaped by the distance between distinct communities. While cultural diversity has garnered increasing attention in artificial intelligence (AI), the lack of robust metrics for quantifying cultural novelty hinders a deeper understanding of these divergences. This gap limits quantifying and understanding cultural differences within computational frameworks. To address this, we propose an interdisciplinary framework that integrates knowledge from sociology and management. Central to our approach is GlobalFusion, a novel dataset comprising 500 dishes and approximately 100,000 cooking recipes capturing cultural adaptation from over 150 countries. By introducing a set of Jensen-Shannon Divergence metrics for novelty, we leverage this dataset to analyze textual divergences when recipes from one community are modified by another with a different cultural background. The results reveal significant correlations between our cultural novelty metrics and established cultural measures based on linguistic, religious, and geographical distances. Our findings highlight the potential of our framework to advance the understanding and measurement of cultural diversity in AI.

arxiv情報

著者 Florian Carichon,Romain Rampa,Golnoosh Farnadi
発行日 2025-03-31 12:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Crossing Boundaries: Leveraging Semantic Divergences to Explore Cultural Novelty in Cooking Recipes はコメントを受け付けていません

MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty

要約

大規模な言語モデル(LLM)の大規模な進歩にもかかわらず、彼らは依然としてもっともらしいが誤った反応を生み出すことに苦しんでいます。
LLMSの信頼性を向上させるために、最近の研究では、不確実性の定量化に焦点を当てて、応答が正しいかどうかを予測しています。
ただし、ほとんどの不確実性の定量化方法は、データの不確実性を削除する単一標識の質問で評価されています。ユーザークエリに存在する既約ランダム性は、複数の可能な回答のような要因から生じる可能性があります。
この制限により、実際の設定では不確実性の定量化の結果が信頼できない可能性があります。
この論文では、データの不確実性の存在下での以前の不確実性定量化方法を調査します。
私たちの貢献は2つあります。1)データセット、MAQAに回答する新しいマルチアンスワーの質問を提案し、世界の知識、数学的推論、およびデータの不確実性に関する不確実性の定量化を評価するためのコモンセンスな推論タスクで構成され、2)多様な白とブラックボックスLLMSの5つの不確実性定量化方法を評価します。
私たちの調査結果は、以前の方法は単一の設定と比較して比較的闘っていることを示していますが、これはタスクによって異なります。
さらに、データの不確実性が存在する場合でも、エントロピーおよび一貫性ベースの方法は、モデルの不確実性を効果的に推定することを観察します。
これらの観察結果は、より現実的な設定での不確実性の定量化に関する将来の作業を導くと考えています。

要約(オリジナル)

Despite the massive advancements in large language models (LLMs), they still suffer from producing plausible but incorrect responses. To improve the reliability of LLMs, recent research has focused on uncertainty quantification to predict whether a response is correct or not. However, most uncertainty quantification methods have been evaluated on single-labeled questions, which removes data uncertainty: the irreducible randomness often present in user queries, which can arise from factors like multiple possible answers. This limitation may cause uncertainty quantification results to be unreliable in practical settings. In this paper, we investigate previous uncertainty quantification methods under the presence of data uncertainty. Our contributions are two-fold: 1) proposing a new Multi-Answer Question Answering dataset, MAQA, consisting of world knowledge, mathematical reasoning, and commonsense reasoning tasks to evaluate uncertainty quantification regarding data uncertainty, and 2) assessing 5 uncertainty quantification methods of diverse white- and black-box LLMs. Our findings show that previous methods relatively struggle compared to single-answer settings, though this varies depending on the task. Moreover, we observe that entropy- and consistency-based methods effectively estimate model uncertainty, even in the presence of data uncertainty. We believe these observations will guide future work on uncertainty quantification in more realistic settings.

arxiv情報

著者 Yongjin Yang,Haneul Yoo,Hwaran Lee
発行日 2025-03-31 13:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty はコメントを受け付けていません

Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data

要約

高品質のトレーニングデータを収集することは、大規模な言語モデル(LLMS)を微調整するために不可欠です。
ただし、このようなデータの取得は、特にイタリア語などの英語以外の言語では、費用がかかり、時間がかかることがよくあります。
最近、研究者は、実行可能な代替手段として合成データセットを生成するためにLLMの使用を調査し始めました。
この研究では、合成データを生成するためのパイプラインと、特定のタスクでの迅速な戦略、テキストの長さ、ターゲット位置などのメトリック、つまりイタリアの職務広告における包括的言語検出などのメトリックによってモデルのパフォーマンスがどのように影響するかを調べることにより、LLMSによって生成される合成データの妥当性に影響を与える要因を調査するための包括的なアプローチを提案しています。
私たちの結果は、ほとんどの場合、異なるメトリックにまたがって、合成データでトレーニングされた微調整されたモデルは、実際のテストデータセットと合成テストデータセットの両方で一貫して他のモデルよりも優れていることを示しています。
この研究では、LLMを使用した言語検出タスクに合成データを使用することの実際的な意味と制限について説明します。

要約(オリジナル)

Collecting high-quality training data is essential for fine-tuning Large Language Models (LLMs). However, acquiring such data is often costly and time-consuming, especially for non-English languages such as Italian. Recently, researchers have begun to explore the use of LLMs to generate synthetic datasets as a viable alternative. This study proposes a pipeline for generating synthetic data and a comprehensive approach for investigating the factors that influence the validity of synthetic data generated by LLMs by examining how model performance is affected by metrics such as prompt strategy, text length and target position in a specific task, i.e. inclusive language detection in Italian job advertisements. Our results show that, in most cases and across different metrics, the fine-tuned models trained on synthetic data consistently outperformed other models on both real and synthetic test datasets. The study discusses the practical implications and limitations of using synthetic data for language detection tasks with LLMs.

arxiv情報

著者 Fatemeh Mohammadi,Tommaso Romano,Samira Maghool,Paolo Ceravolo
発行日 2025-03-31 13:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data はコメントを受け付けていません

Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis

要約

大規模な言語モデル(LLMS)の導入後、テキストの要約や機械翻訳など、自然言語生成(NLG)タスクのパフォーマンスが大幅に改善されました。
ただし、LLMは依然として幻覚、つまり、実際には根拠のないコンテンツを含む出力を生成します。
したがって、LLMSの事実を評価するための方法の開発は緊急になりました。
実際、事実評価のためのリソースが最近浮上しています。
挑戦的ですが、これらのリソースは次の制限の1つ以上に直面しています。(i)特定のタスクまたはドメインに合わせて調整されています。
(ii)サイズが限られているため、新しい事実評価者の訓練を妨げます。
(iii)クレーム検証など、より単純な検証タスク用に設計されています。
これらの問題に対処するために、LLM-Oasisを紹介し、私たちの知る限り、エンドツーエンドの事実評価者をトレーニングするための最大のリソースです。
LLM-Oasisは、ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と不正なテキストのペアを生成することによって構築されます。
次に、データセットの品質を検証し、ベンチマークの事実評価システムのためのゴールドスタンダードテストセットを作成するために、人間のアノテーターに頼っています。
私たちの実験は、LLM-Oasisが最先端のLLMに大きな課題をもたらし、GPT-4oが提案されたエンドツーエンドの事実評価タスクで最大60%の精度を達成し、現場での将来の研究を推進する可能性を強調していることを示しています。

要約(オリジナル)

After the introduction of Large Language Models (LLMs), there have been substantial improvements in the performance of Natural Language Generation (NLG) tasks, including Text Summarization and Machine Translation. However, LLMs still produce outputs containing hallucinations, that is, content not grounded in factual information. Therefore, developing methods to assess the factuality of LLMs has become urgent. Indeed, resources for factuality evaluation have recently emerged. Although challenging, these resources face one or more of the following limitations: (i) they are tailored to a specific task or domain; (ii) they are limited in size, thereby preventing the training of new factuality evaluators; (iii) they are designed for simpler verification tasks, such as claim verification. To address these issues, we introduce LLM-Oasis, to the best of our knowledge the largest resource for training end-to-end factuality evaluators. LLM-Oasis is constructed by extracting claims from Wikipedia, falsifying a subset of these claims, and generating pairs of factual and unfactual texts. We then rely on human annotators to both validate the quality of our dataset and to create a gold standard test set for benchmarking factuality evaluation systems. Our experiments demonstrate that LLM-Oasis presents a significant challenge for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our proposed end-to-end factuality evaluation task, highlighting its potential to drive future research in the field.

arxiv情報

著者 Alessandro Scirè,Andrei Stefan Bejgu,Simone Tedeschi,Karim Ghonim,Federico Martelli,Roberto Navigli
発行日 2025-03-31 13:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis はコメントを受け付けていません