Representation Learning for Distributional Perturbation Extrapolation

要約

RNAシーケンスデータなどの低レベルの測定に対する遺伝子ノックダウンや薬物の組み合わせなどの目に見えない摂動の効果をモデル化する問題を検討します。
具体的には、いくつかの摂動の下で収集されたデータが与えられた場合、新しい摂動の測定の分布を予測することを目指しています。
この挑戦的な外挿タスクに対処するために、適切な未知の埋め込みスペースに摂動が加算されることを仮定します。
より正確には、観測されたデータを潜在変数モデルとして根底にある生成プロセスを策定します。このモデルでは、摂動は潜在空間のシフトを平均し、追加することができます。
以前の研究とは異なり、十分に多様なトレーニング摂動を考えると、表現と摂動の影響がアフィン変換に識別できることを証明し、これを使用して、外挿保証を取得する目に見えない摂動のクラスを特徴付けます。
モデルをデータから推定するために、新しい方法である摂動分布オートエンコーダー(PDAE)を提案します。これは、真と予測された摂動分布の間の分布類似性を最大化することによってトレーニングされます。
その後、訓練されたモデルを使用して、以前に見えない摂動分布を予測できます。
経験的証拠は、PDAEが目に見えない摂動の影響を予測する際に既存の方法やベースラインと比較していることを示唆しています。

要約(オリジナル)

We consider the problem of modelling the effects of unseen perturbations such as gene knockdowns or drug combinations on low-level measurements such as RNA sequencing data. Specifically, given data collected under some perturbations, we aim to predict the distribution of measurements for new perturbations. To address this challenging extrapolation task, we posit that perturbations act additively in a suitable, unknown embedding space. More precisely, we formulate the generative process underlying the observed data as a latent variable model, in which perturbations amount to mean shifts in latent space and can be combined additively. Unlike previous work, we prove that, given sufficiently diverse training perturbations, the representation and perturbation effects are identifiable up to affine transformation, and use this to characterize the class of unseen perturbations for which we obtain extrapolation guarantees. To estimate the model from data, we propose a new method, the perturbation distribution autoencoder (PDAE), which is trained by maximising the distributional similarity between true and predicted perturbation distributions. The trained model can then be used to predict previously unseen perturbation distributions. Empirical evidence suggests that PDAE compares favourably to existing methods and baselines at predicting the effects of unseen perturbations.

arxiv情報

著者 Julius von Kügelgen,Jakob Ketterer,Xinwei Shen,Nicolai Meinshausen,Jonas Peters
発行日 2025-04-25 17:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Representation Learning for Distributional Perturbation Extrapolation はコメントを受け付けていません

Random-Set Large Language Models

要約

大規模な言語モデル(LLM)は、クエリに対する非常に高品質のテストと応答を生成することが知られています。
しかし、この生成されたテキストをどれだけ信頼できますか?
この論文では、LLMSにおける不確実性の定量化の問題を研究します。
古典的なLLMのように確率ベクトルではなく、トークン空間上の有限ランダムセット(信念関数)を予測する新しいランダムセット大型言語モデル(RSLLM)アプローチを提案します。
非常に効率的に許可するために、階層的クラスタリングに基づいた方法論を提示して、トークンのすべての可能なコレクションを使用するのではなく、信念予測が定義されているトークンの「焦点」サブセットの予算を抽出および使用して使用し、方法をスケーラブルでありながら効果的にします。
RS-LLMSは、予測された信念関数に関連する信用セットのサイズを介して、その生成プロセスで誘発された認識論的不確実性を、そのトレーニングセットのサイズと多様性によってエンコードします。
提案されたアプローチは、LLAMA2-7B、MISTRAL-7B、およびPHI-2モデルを使用してCOQAおよびOBQAデータセットで評価され、回答の正確性の観点から両方のデータセットの標準モデルを上回ることが示されていると同時に、予測の2番目のレベルの不確実性を推定し、幻覚を検出する能力を提供することが示されています。

要約(オリジナル)

Large Language Models (LLMs) are known to produce very high-quality tests and responses to our queries. But how much can we trust this generated text? In this paper, we study the problem of uncertainty quantification in LLMs. We propose a novel Random-Set Large Language Model (RSLLM) approach which predicts finite random sets (belief functions) over the token space, rather than probability vectors as in classical LLMs. In order to allow so efficiently, we also present a methodology based on hierarchical clustering to extract and use a budget of ‘focal’ subsets of tokens upon which the belief prediction is defined, rather than using all possible collections of tokens, making the method scalable yet effective. RS-LLMs encode the epistemic uncertainty induced in their generation process by the size and diversity of its training set via the size of the credal sets associated with the predicted belief functions. The proposed approach is evaluated on CoQA and OBQA datasets using Llama2-7b, Mistral-7b and Phi-2 models and is shown to outperform the standard model in both datasets in terms of correctness of answer while also showing potential in estimating the second level uncertainty in its predictions and providing the capability to detect when its hallucinating.

arxiv情報

著者 Muhammad Mubashar,Shireen Kudukkil Manchingal,Fabio Cuzzolin
発行日 2025-04-25 05:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | Random-Set Large Language Models はコメントを受け付けていません

Your Weak LLM is Secretly a Strong Teacher for Alignment

要約

大規模な言語モデル(LLM)の急成長能力は、人間の価値と意図に従ってこれらのモデルが行動することを保証するために、アラインメントの必要性を強調しています。
既存のアライメントフレームワークは、高価な人間の努力または高い計算コストの形での制約を提示します。
このホワイトペーパーでは、有望な中間点を探ります。ここでは、トップティアモデルよりもリソース集約型が大幅に少ない弱いLLMを採用していますが、純粋に人間のフィードバックよりも多くの自動化を提供します。
整合のためにフィードバックを生成する弱いLLMの能力を評価および理解するための体系的な研究を提示します。
私たちの経験的調査結果は、弱いLLMがライバルを提供するフィードバックを提供したり、完全に人間が発表したデータのフィードバックを超えることさえできることを示しています。
私たちの研究では、フィードバック効果に対するモデルサイズの影響が最小限に抑えられ、スケーラブルで持続可能なアライメント戦略に光を当てています。
弱いLLMフィードバックの下でのアラインメントの理解を深めるために、一連の定性的および定量的分析を実施し、人間のフィードバックと弱いLLMフィードバックの間の質の矛盾に関する新しい洞察を提供します。

要約(オリジナル)

The burgeoning capabilities of large language models (LLMs) have underscored the need for alignment to ensure these models act in accordance with human values and intentions. Existing alignment frameworks present constraints either in the form of expensive human effort or high computational costs. This paper explores a promising middle ground, where we employ a weak LLM that is significantly less resource-intensive than top-tier models, yet offers more automation than purely human feedback. We present a systematic study to evaluate and understand weak LLM’s ability to generate feedback for alignment. Our empirical findings demonstrate that weak LLMs can provide feedback that rivals or even exceeds that of fully human-annotated data. Our study indicates a minimized impact of model size on feedback efficacy, shedding light on a scalable and sustainable alignment strategy. To deepen our understanding of alignment under weak LLM feedback, we conduct a series of qualitative and quantitative analyses, offering novel insights into the quality discrepancies between human feedback vs. weak LLM feedback.

arxiv情報

著者 Leitian Tao,Yixuan Li
発行日 2025-04-25 05:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Your Weak LLM is Secretly a Strong Teacher for Alignment はコメントを受け付けていません

Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification

要約

教育リソースの正確な注釈は、オンライン教育における効果的なパーソナライズされた学習とリソースの推奨には重要です。
ただし、きめの細かい知識ラベルは、多くの場合、類似点を重ねたり共有したりすることが多いため、既存のマルチラベル分類方法がそれらを区別することが困難になります。
人間の注釈のスパース性によるラベル分布の不均衡は、これらの課題をさらに強化します。
これらの問題に対処するために、このホワイトペーパーでは、ラベルセマンティクスとメタラベルの洗練を活用することにより、マルチラベル質問分類を行うための新しい検索再ランキング方法であるRR2QCを紹介します。
まず、RR2QCは、ラベルグループ内およびラベルグループ間でセマンティックな関係を利用することにより、トレーニング前の戦略を改善します。
第二に、ダウンストリームトレーニング中に質問をラベルセマンティクスに合わせてクラスセンター学習タスクを導入します。
最後に、この方法はラベルをメタラベルに分解し、メタラベル分類器を使用して検索されたラベルシーケンスを再表示します。
そうすることで、RR2QCは、他のラベルに頻繁に登場するメタラベルから学習することにより、長期尾のラベルの理解と予測能力を高めます。
さらに、数学的なLLMを使用して、質問のソリューションを生成し、潜在的な情報を抽出してモデルの洞察をさらに改善します。
実験結果は、RR2QCが複数の教育データセットにわたって精度@KおよびF1スコアで既存の方法を上回り、オンライン教育アプリケーションの有効性を示していることを示しています。
コードとデータセットは、https://github.com/78erii/rr2qcで入手できます。

要約(オリジナル)

Accurate annotation of educational resources is crucial for effective personalized learning and resource recommendation in online education. However, fine-grained knowledge labels often overlap or share similarities, making it difficult for existing multi-label classification methods to differentiate them. The label distribution imbalance due to sparsity of human annotations further intensifies these challenges. To address these issues, this paper introduces RR2QC, a novel Retrieval Reranking method to multi-label Question Classification by leveraging label semantics and meta-label refinement. First, RR2QC improves the pre-training strategy by utilizing semantic relationships within and across label groups. Second, it introduces a class center learning task to align questions with label semantics during downstream training. Finally, this method decomposes labels into meta-labels and uses a meta-label classifier to rerank the retrieved label sequences. In doing so, RR2QC enhances the understanding and prediction capability of long-tail labels by learning from meta-labels that frequently appear in other labels. Additionally, a mathematical LLM is used to generate solutions for questions, extracting latent information to further refine the model’s insights. Experimental results show that RR2QC outperforms existing methods in Precision@K and F1 scores across multiple educational datasets, demonstrating its effectiveness for online education applications. The code and datasets are available at https://github.com/78Erii/RR2QC.

arxiv情報

著者 Shi Dong,Xiaobei Niu,Rui Zhong,Zhifeng Wang,Mingzhang Zuo
発行日 2025-04-25 05:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification はコメントを受け付けていません

Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture

要約

音声生成は、さまざまな調音の特徴の調整を含む複雑な連続プロセスです。
その中で、舌は、気流を形作って知的で明確で、明確なターゲットを絞った音声音を生成するための非常に用途の広いアクティブなアーチキチュレーターです。
この論文は、積み重なった双方向の短期記憶(BILSTM)アーキテクチャを使用して、特定の音声音響に関与する舌および唇の調音の特徴を予測するための新しいアプローチを提示し、固定体重の初期化を伴うポスト処理のための1次元の畳み込みニューラルネットワーク(CNN)と組み合わせています。
提案されたネットワークは、同時に録音された音声と電磁アーティクログラフィ(EMA)データセットで構成される2つのデータセットでトレーニングされており、それぞれ地理的起源、言語特性、音声多様性、および記録装置の観点からバリエーションを導入します。
モデルのパフォーマンスは、スピーカー依存(SD)、スピーカー独立(SI)、コーパス依存(CD)、およびクロスコーパス(CC)モードで評価されます。
実験結果は、固定重量アプローチを備えた提案されたモデルが、比較的最小限のトレーニングエポックで適応重みの初期化を上回ったことを示しています。
これらの発見は、調音の特徴予測のための堅牢で効率的なモデルの開発に貢献し、音声生産研究とアプリケーションの進歩への道を開いています。

要約(オリジナル)

Speech production is a complex sequential process which involve the coordination of various articulatory features. Among them tongue being a highly versatile active articulator responsible for shaping airflow to produce targeted speech sounds that are intellectual, clear, and distinct. This paper presents a novel approach for predicting tongue and lip articulatory features involved in a given speech acoustics using a stacked Bidirectional Long Short-Term Memory (BiLSTM) architecture, combined with a one-dimensional Convolutional Neural Network (CNN) for post-processing with fixed weights initialization. The proposed network is trained with two datasets consisting of simultaneously recorded speech and Electromagnetic Articulography (EMA) datasets, each introducing variations in terms of geographical origin, linguistic characteristics, phonetic diversity, and recording equipment. The performance of the model is assessed in Speaker Dependent (SD), Speaker Independent (SI), corpus dependent (CD) and cross corpus (CC) modes. Experimental results indicate that the proposed model with fixed weights approach outperformed the adaptive weights initialization with in relatively minimal number of training epochs. These findings contribute to the development of robust and efficient models for articulatory feature prediction, paving the way for advancements in speech production research and applications.

arxiv情報

著者 Leena G Pillai,D. Muhammad Noorul Mubarak,Elizabeth Sherly
発行日 2025-04-25 05:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture はコメントを受け付けていません

Application and Optimization of Large Models Based on Prompt Tuning for Fact-Check-Worthiness Estimation

要約

グローバリゼーションと情報化の文脈における誤った情報の増大する問題に対応して、このホワイトペーパーでは、迅速な調整に基づいた事実チェック壁の推定の分類方法を提案します。
迅速なチューニングを使用して、方法論レベルで事実チェック能力の推定のモデルを構築します。
設計されたプロンプトテンプレートを大規模な言語モデルに適用することにより、特に限られたデータまたは非標識データを扱う場合、クレームが事実確認能力を持っているかどうかを判断する正確性を改善するために、コンテキスト内学習とレバレッジプロンプトチューニングテクノロジーを確立します。
パブリックデータセットでの広範な実験を通じて、提案された方法が、BERTなどの古典的な事前訓練モデルを含む、事実チェック壁性推定評価の分類タスクで複数のベースラインメソッドを上回ったり、GPT-3.5やGPT-4などの最近の一般的な大型モデルを含むことを実証したりします。
実験は、この研究で提案されている迅速な調整ベースの方法が、F1スコアや精度などの評価メトリックに特定の利点を示し、それにより、事実確認の推定のタスクにおけるその有効性と進歩を効果的に検証することを示しています。

要約(オリジナル)

In response to the growing problem of misinformation in the context of globalization and informatization, this paper proposes a classification method for fact-check-worthiness estimation based on prompt tuning. We construct a model for fact-check-worthiness estimation at the methodological level using prompt tuning. By applying designed prompt templates to large language models, we establish in-context learning and leverage prompt tuning technology to improve the accuracy of determining whether claims have fact-check-worthiness, particularly when dealing with limited or unlabeled data. Through extensive experiments on public datasets, we demonstrate that the proposed method surpasses or matches multiple baseline methods in the classification task of fact-check-worthiness estimation assessment, including classical pre-trained models such as BERT, as well as recent popular large models like GPT-3.5 and GPT-4. Experiments show that the prompt tuning-based method proposed in this study exhibits certain advantages in evaluation metrics such as F1 score and accuracy, thereby effectively validating its effectiveness and advancement in the task of fact-check-worthiness estimation.

arxiv情報

著者 Yinglong Yu,Hao Shen,Zhengyi Lyu,Qi He
発行日 2025-04-25 06:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Application and Optimization of Large Models Based on Prompt Tuning for Fact-Check-Worthiness Estimation はコメントを受け付けていません

Comparative Study on the Discourse Meaning of Chinese and English Media in the Paris Olympics Based on LDA Topic Modeling Technology and LLM Prompt Engineering

要約

この研究では、トピックモデリング、大規模な言語モデル(LLM)プロンプトエンジニアリング、および談話の構築と態度の意味の類似点と相違点を探るためのコーパス語彙方法を使用して、パリオリンピックに関する中国と英語のメディア報道を分析します。
一般的なトピックには、開会式、アスリートのパフォーマンス、スポンサーシップブランドが含まれます。
中国のメディアは、特定のスポーツ、スポーツスピリット、ドーピングの論争、新しいテクノロジーに焦点を当て、英語のメディアは女性アスリート、メダルの勝利、適格な論争に焦点を当てています。
中国のレポートは、開会式とスポーツ精神を説明する際に、より頻繁な前置詞の共起とポジティブな意味韻律を示しています。
英語のレポートは、女性のアスリートをカバーするときに肯定的な意味韻律を示しますが、開会式の反応を予測し、女性のボクシングの論争について議論する際に否定的な韻律を示します。

要約(オリジナル)

This study analyzes Chinese and English media reports on the Paris Olympics using topic modeling, Large Language Model (LLM) prompt engineering, and corpus phraseology methods to explore similarities and differences in discourse construction and attitudinal meanings. Common topics include the opening ceremony, athlete performance, and sponsorship brands. Chinese media focus on specific sports, sports spirit, doping controversies, and new technologies, while English media focus on female athletes, medal wins, and eligibility controversies. Chinese reports show more frequent prepositional co-occurrences and positive semantic prosody in describing the opening ceremony and sports spirit. English reports exhibit positive semantic prosody when covering female athletes but negative prosody in predicting opening ceremony reactions and discussing women’s boxing controversies.

arxiv情報

著者 Yinglong Yu,Zhaopu Yao,Fang Yuan
発行日 2025-04-25 06:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Comparative Study on the Discourse Meaning of Chinese and English Media in the Paris Olympics Based on LDA Topic Modeling Technology and LLM Prompt Engineering はコメントを受け付けていません

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

要約

このペーパーでは、監視なしで監視されたAL方法を組み合わせた、自動音声認識(ASR)のための新しい2段階アクティブラーニング(AL)パイプラインを紹介します。
最初の段階では、X-Vectorsクラスタリングを使用して、無効な音声データからの多様なサンプル選択を使用して、監視されていないALを利用して、後続の監視されたALの堅牢な初期データセットを確立します。
第2段階には、サンプルの多様で有益なバッチを選択することを目的としたASR専用に開発されたバッチALメソッドを備えた監視されたAL戦略が組み込まれています。
ここでは、サンプルの多様性もXベクタークラスタリングを使用して達成されますが、最も有益なサンプルは、モンテカルロドロップアウトを適応させてベイジアン推論を近似して、ASRに合わせたベイズALメソッドを使用して特定されます。
このアプローチにより、正確な不確実性の推定が可能になり、データ要件が大幅に削減されたASRモデルトレーニングが強化されます。
私たちの方法は、均質、不均一、およびOODテストセットに関する競合する方法と比較して優れた性能を示しており、戦略的なサンプル選択と革新的なベイジアンモデリングが、深い学習ベースのASRアプリケーションでのラベル付けの取り組みとデータ利用の両方を大幅に最適化できることを示しています。

要約(オリジナル)

This paper introduces a novel two-stage active learning (AL) pipeline for automatic speech recognition (ASR), combining unsupervised and supervised AL methods. The first stage utilizes unsupervised AL by using x-vectors clustering for diverse sample selection from unlabeled speech data, thus establishing a robust initial dataset for the subsequent supervised AL. The second stage incorporates a supervised AL strategy, with a batch AL method specifically developed for ASR, aimed at selecting diverse and informative batches of samples. Here, sample diversity is also achieved using x-vectors clustering, while the most informative samples are identified using a Bayesian AL method tailored for ASR with an adaptation of Monte Carlo dropout to approximate Bayesian inference. This approach enables precise uncertainty estimation, thereby enhancing ASR model training with significantly reduced data requirements. Our method has shown superior performance compared to competing methods on homogeneous, heterogeneous, and OOD test sets, demonstrating that strategic sample selection and innovative Bayesian modeling can substantially optimize both labeling effort and data utilization in deep learning-based ASR applications.

arxiv情報

著者 Ognjen Kundacina,Vladimir Vincan,Dragisa Miskovic
発行日 2025-04-25 06:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition はコメントを受け付けていません

A Case Study Exploring the Current Landscape of Synthetic Medical Record Generation with Commercial LLMs

要約

Synthetic Electronic Health Records(EHRS)は、ヘルスケアでの多数のアプリケーションをサポートし、プライバシー保存および調和の取れた構造化データを作成する貴重な機会を提供します。
合成データの主な利点には、データスキーマの正確な制御、患者集団の公平性と表現の改善、および実際の個人のプライバシーを損なうことに関する懸念なしにデータセットを共有する能力が含まれます。
その結果、AIコミュニティはますます大きな言語モデル(LLMS)に変わり、さまざまなドメインで合成データを生成しました。
しかし、ヘルスケアの重要な課題は、合成の健康記録がさまざまな病院で確実に一般化することを保証することです。これは、この分野で長年の問題です。
この作業では、合成データを生成するための商用LLMの現在の状態を評価し、生成プロセスの複数の側面を調査して、これらのモデルが優れている領域と不足している領域を特定します。
この作業からの私たちの主な発見は、LLMSが機能の小さなサブセットの合成健康記録を確実に生成できる一方で、データの次元が増加するにつれて現実的な分布と相関を維持するのに苦労し、最終的には多様な病院の設定全体で一般化する能力を制限することです。

要約(オリジナル)

Synthetic Electronic Health Records (EHRs) offer a valuable opportunity to create privacy preserving and harmonized structured data, supporting numerous applications in healthcare. Key benefits of synthetic data include precise control over the data schema, improved fairness and representation of patient populations, and the ability to share datasets without concerns about compromising real individuals privacy. Consequently, the AI community has increasingly turned to Large Language Models (LLMs) to generate synthetic data across various domains. However, a significant challenge in healthcare is ensuring that synthetic health records reliably generalize across different hospitals, a long standing issue in the field. In this work, we evaluate the current state of commercial LLMs for generating synthetic data and investigate multiple aspects of the generation process to identify areas where these models excel and where they fall short. Our main finding from this work is that while LLMs can reliably generate synthetic health records for smaller subsets of features, they struggle to preserve realistic distributions and correlations as the dimensionality of the data increases, ultimately limiting their ability to generalize across diverse hospital settings.

arxiv情報

著者 Yihan Lin,Zhirong Bella Yu,Simon Lee
発行日 2025-04-25 06:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A Case Study Exploring the Current Landscape of Synthetic Medical Record Generation with Commercial LLMs はコメントを受け付けていません

Evaluating Evaluation Metrics — The Mirage of Hallucination Detection

要約

幻覚は、言語モデルの信頼性と広範な採用に大きな障害をもたらしますが、それらの正確な測定は依然として持続的な課題です。
忠実さと事実の懸念を評価するために、多くのタスクおよびドメイン固有のメトリックが提案されていますが、これらのメトリックの堅牢性と一般化はまだテストされていません。
この論文では、4つのデータセットにわたって6つの多様な幻覚検出メトリック、5つの家族から37の言語モデル、5つのデコード方法の大規模な経験的評価を実施します。
私たちの広範な調査は、現在の幻覚評価のギャップに関するギャップを明らかにしています。メトリックはしばしば人間の判断と整合し、問題を明白に近視の見方をし、パラメータースケーリングと一貫性のない利益を示します。
勇気づけられると、LLMベースの評価は、特にGPT-4では、全体的な全体的な結果が得られ、モードを求めるデコード方法は、特に知識に基づいた設定で幻覚を減らすようです。
これらの調査結果は、幻覚を理解して定量化するためのより堅牢なメトリックの必要性と、それらを緩和するためのより良い戦略の必要性を強調しています。

要約(オリジナル)

Hallucinations pose a significant obstacle to the reliability and widespread adoption of language models, yet their accurate measurement remains a persistent challenge. While many task- and domain-specific metrics have been proposed to assess faithfulness and factuality concerns, the robustness and generalization of these metrics are still untested. In this paper, we conduct a large-scale empirical evaluation of 6 diverse sets of hallucination detection metrics across 4 datasets, 37 language models from 5 families, and 5 decoding methods. Our extensive investigation reveals concerning gaps in current hallucination evaluation: metrics often fail to align with human judgments, take an overtly myopic view of the problem, and show inconsistent gains with parameter scaling. Encouragingly, LLM-based evaluation, particularly with GPT-4, yields the best overall results, and mode-seeking decoding methods seem to reduce hallucinations, especially in knowledge-grounded settings. These findings underscore the need for more robust metrics to understand and quantify hallucinations, and better strategies to mitigate them.

arxiv情報

著者 Atharva Kulkarni,Yuan Zhang,Joel Ruben Antony Moniz,Xiou Ge,Bo-Hsiang Tseng,Dhivya Piraviperumal,Swabha Swayamdipta,Hong Yu
発行日 2025-04-25 06:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Evaluating Evaluation Metrics — The Mirage of Hallucination Detection はコメントを受け付けていません