Uncertainty Modeling in Multimodal Speech Analysis Across the Psychosis Spectrum

要約

精神病スペクトル全体で微妙な発話の混乱を捉えることは、音声パターンに固有の変動性のために困難です。
この変動性は、臨床集団と非臨床集団の両方における個人差と症状の変動性を反映しています。
音声データの不確実性を考慮することは、症状の重症度を予測し、診断精度を改善するために不可欠です。
精神病の特徴的な発話の混乱は、非臨床的な個人を含むスペクトル全体に現れます。
症状の重症度と精神病関連の特性を予測するために、音響と言語の特徴を統合する不確実性を意識したモデルを開発します。
特定のモダリティの不確実性を定量化することにより、モデルは音声の変動性に対処し、予測の精度を向上させることができます。
早期精神病の32人と82人の統合失調症を含む82人を含む114人の参加者からの音声データを分析しました。
このモデルは予測精度を改善し、RMSEを減らし、ECE = 4.5E-2で83%のF1スコアを達成し、異なる相互作用コンテキストで堅牢なパフォーマンスを示しました。
不確実性の推定により、ピッチの変動、流encyの破壊、スペクトルの不安定性などの音声マーカーの信頼性の違いを特定することにより、モデルの解釈性が向上しました。
このモデルは、タスク構造に動的に調整され、構造化された設定で音響特徴を重み付けし、非構造化されたコンテキストで言語機能を重み付けします。
このアプローチは、精神病スペクトル研究における早期の検出、パーソナライズされた評価、臨床的意思決定を強化します。

要約(オリジナル)

Capturing subtle speech disruptions across the psychosis spectrum is challenging because of the inherent variability in speech patterns. This variability reflects individual differences and the fluctuating nature of symptoms in both clinical and non-clinical populations. Accounting for uncertainty in speech data is essential for predicting symptom severity and improving diagnostic precision. Speech disruptions characteristic of psychosis appear across the spectrum, including in non-clinical individuals. We develop an uncertainty-aware model integrating acoustic and linguistic features to predict symptom severity and psychosis-related traits. Quantifying uncertainty in specific modalities allows the model to address speech variability, improving prediction accuracy. We analyzed speech data from 114 participants, including 32 individuals with early psychosis and 82 with low or high schizotypy, collected through structured interviews, semi-structured autobiographical tasks, and narrative-driven interactions in German. The model improved prediction accuracy, reducing RMSE and achieving an F1-score of 83% with ECE = 4.5e-2, showing robust performance across different interaction contexts. Uncertainty estimation improved model interpretability by identifying reliability differences in speech markers such as pitch variability, fluency disruptions, and spectral instability. The model dynamically adjusted to task structures, weighting acoustic features more in structured settings and linguistic features in unstructured contexts. This approach strengthens early detection, personalized assessment, and clinical decision-making in psychosis-spectrum research.

arxiv情報

著者 Morteza Rohanian,Roya M. Hüppi,Farhad Nooralahzadeh,Noemi Dannecker,Yves Pauli,Werner Surbeck,Iris Sommer,Wolfram Hinzen,Nicolas Langer,Michael Krauthammer,Philipp Homan
発行日 2025-02-25 15:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Uncertainty Modeling in Multimodal Speech Analysis Across the Psychosis Spectrum はコメントを受け付けていません

How Vital is the Jurisprudential Relevance: Law Article Intervened Legal Case Retrieval and Matching

要約

Legal Case Retrieval(LCR)は、特定のクエリに基づいて同等の法的ケースを自動的に精査することを目指しています。これは、インテリジェントな法制度の判決をサポートするための関連する先例を提供するために重要です。
同様の目標により、多くの場合、同様のケースマッチング(LCM)タスクに関連付けられています。
それらに対処するために、困難な課題は、一般的なテキスト検索のセマンティックな類似性から明確に逸脱する司法ドメイン内の一意に定義された法的合理的類似性を評価することです。
過去の作品は、ドメイン固有の要因をタグ付けするか、法的合理的な情報をキャプチャするために参照法を組み込んだタグ付けされています。
ただし、専門家や非現実的な仮定への依存度は、実際のシナリオでの実際的な適用性を制限しています。
この論文では、上記の課題を解決するためにLCM-LAIという名前のエンドツーエンドモデルを提案します。
綿密な理論分析を通じて、LCM-LAIは、依存するマルチタスク学習フレームワークを採用して、法律条項の予測(LAP)サブタスクによって法的事件内で法的合理的な情報をキャプチャします。
その上、LCM-LAIは、従来のセマンティックな類似性よりも効果的な法律分布に基づいて、ケース全体の文の間の法的合理的な類似性を評価するための記事を意識した注意メカニズムを提案しています。
4つの実際のデータセットを含む2つの異なるタスクを含む一連の徹底的な実験をWeperformします。
結果は、LCM-LAIが最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Legal case retrieval (LCR) aims to automatically scour for comparable legal cases based on a given query, which is crucial for offering relevant precedents to support the judgment in intelligent legal systems. Due to similar goals, it is often associated with a similar case matching (LCM) task. To address them, a daunting challenge is assessing the uniquely defined legal-rational similarity within the judicial domain, which distinctly deviates from the semantic similarities in general text retrieval. Past works either tagged domain-specific factors or incorporated reference laws to capture legal-rational information. However, their heavy reliance on expert or unrealistic assumptions restricts their practical applicability in real-world scenarios. In this paper, we propose an end-to-end model named LCM-LAI to solve the above challenges. Through meticulous theoretical analysis, LCM-LAI employs a dependent multi-task learning framework to capture legal-rational information within legal cases by a law article prediction (LAP) sub-task, without any additional assumptions in inference. Besides, LCM-LAI proposes an article-aware attention mechanism to evaluate the legal-rational similarity between across-case sentences based on law distribution, which is more effective than conventional semantic similarity. Weperform a series of exhaustive experiments including two different tasks involving four real-world datasets. Results demonstrate that LCM-LAI achieves state-of-the-art performance.

arxiv情報

著者 Nuo Xu,Pinghui Wang,Zi Liang,Junzhou Zhao,Xiaohong Guan
発行日 2025-02-25 15:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | How Vital is the Jurisprudential Relevance: Law Article Intervened Legal Case Retrieval and Matching はコメントを受け付けていません

RefuteBench 2.0 — Agentic Benchmark for Dynamic Evaluation of LLM Responses to Refutation Instruction

要約

マルチターンインタラクションスキーマでは、大規模な言語モデル(LLMS)はユーザーフィードバックを活用して、応答の品質と関連性を高めることができます。
ただし、ユーザーの反論フィードバックを組み込むLLMの能力を評価することは非常に重要でありながら挑戦的です。
この研究では、RebuteBench 2.0を導入します。これは、LLMエージェントを反論および評価者として組み込むことにより、元のRebuteBenchを大幅に拡張し、柔軟で包括的な評価を可能にします。
私たちは、異なる妥当性の期間で一時的な反論と持続的な反論の両方の指示を設計します。
メタ評価は、LLMベースの反論者がより多くの人間のような反論を生み出すことができ、評価者は人間との高い相関関係でスコアを割り当てることができることを示しています。
さまざまなLLMの実験結果は、現在のモデルが反論を効果的に満たすことができるが、反論情報を記憶できないことを示しています。
興味深いことに、反論が増加するにつれて最初のタスクのパフォーマンスが低下することも観察します。
注意スコアの分析は、現在のLLMの潜在的な弱点をさらに示しています。彼らは、長いコンテキストの対話中に以前の情報を保持し、正しく使用するのに苦労しています。
https://github.com/elliottyan/refutebench-2.0

要約(オリジナル)

In the multi-turn interaction schema, large language models (LLMs) can leverage user feedback to enhance the quality and relevance of their responses. However, evaluating an LLM’s ability to incorporate user refutation feedback is crucial yet challenging. In this study, we introduce RefuteBench 2.0, which significantly extends the original RefuteBench by incorporating LLM agents as refuters and evaluators, which allows for flexible and comprehensive assessment. We design both transient and persistent refutation instructions with different validity periods. Meta-evaluation shows that the LLM-based refuter could generate more human-like refutations and the evaluators could assign scores with high correlation with humans. Experimental results of various LLMs show that current models could effectively satisfy the refutation but fail to memorize the refutation information. Interestingly, we also observe that the performance of the initial task decreases as the refutations increase. Analysis of the attention scores further shows a potential weakness of current LLMs: they struggle to retain and correctly use previous information during long context dialogues. https://github.com/ElliottYan/RefuteBench-2.0

arxiv情報

著者 Jianhao Yan,Yun Luo,Yue Zhang
発行日 2025-02-25 15:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RefuteBench 2.0 — Agentic Benchmark for Dynamic Evaluation of LLM Responses to Refutation Instruction はコメントを受け付けていません

Looking forward: Linguistic theory and methods

要約

この章では、言語理論と方法の現在の発展を検討し、計算、認知、および進化の視点の統合の増加に焦点を当てています。
現代の言語を形成する4つの主要なテーマを強調しています。(1)効率、地域、概念的意味接地などの象徴的な表現に関する仮説の明示的なテスト。
(2)理論的議論と言語分析に対する人工ニューラルネットワークの影響。
(3)言語理論における主体間性の重要性。
(4)進化言語学の成長。
言語学とコンピューターサイエンス、心理学、神経科学、生物学と結びつけることにより、言語研究の変化する景観に関する将来の見通しの視点を提供します。

要約(オリジナル)

This chapter examines current developments in linguistic theory and methods, focusing on the increasing integration of computational, cognitive, and evolutionary perspectives. We highlight four major themes shaping contemporary linguistics: (1) the explicit testing of hypotheses about symbolic representation, such as efficiency, locality, and conceptual semantic grounding; (2) the impact of artificial neural networks on theoretical debates and linguistic analysis; (3) the importance of intersubjectivity in linguistic theory; and (4) the growth of evolutionary linguistics. By connecting linguistics with computer science, psychology, neuroscience, and biology, we provide a forward-looking perspective on the changing landscape of linguistic research.

arxiv情報

著者 John Mansfield,Ethan Gotlieb Wilcox
発行日 2025-02-25 16:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Looking forward: Linguistic theory and methods はコメントを受け付けていません

WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging

要約

Wickedを紹介します。これは、選択を教育テストでよく使用する方法である「上記のいずれでもない」にランダムに置き換えることにより、既存の多肢選択ベンチマークの複雑さを高める簡単な方法です。
Wickedが既存のベンチマークに自動的に適用できることを示し、より挑戦的にします。
6つの人気のあるベンチマークにWickedを適用し、それを使用して18のオープンウェイトLLMを評価します。
モデルのパフォーマンスは、データセットの元のバージョンに関して平均で12.1ポイント低下します。
3 MMLUデータセットでチェーンオブしか考えられている場合、邪悪なバリアントのパフォーマンス低下は、LLMSを直接使用するときに観察されたものと似ており、邪悪なものが推論能力が強化されたモデルにも挑戦的であることを示しています。
Wickedはまた、一部のモデルが必要な余分な推論に対してより敏感であることを明らかにし、元のベンチマークに関して追加情報を提供します。
https://github.com/ahmedselhady/wicked-benchmarksでコードとデータをリラーズします。

要約(オリジナル)

We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with ‘None of the above’, a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.

arxiv情報

著者 Ahmed Elhady,Eneko Agirre,Mikel Artetxe
発行日 2025-02-25 16:09:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging はコメントを受け付けていません

Mapping of Subjective Accounts into Interpreted Clusters (MOSAIC): Topic Modelling and LLM applied to Stroboscopic Phenomenology

要約

閉じた目のストロボスコープ光刺激(SLS)は、通常、鮮やかで幾何学的でカラフルなパターンを特徴とする単純な視覚幻覚(VHS)を誘導します。
422の公開主観的なレポートから抽出された862文のデータセットは、最近、SLSと空間音を集合的な設定で組み合わせた没入型多感覚体験であるDreamAchineプログラム(Collective Act、2022)の一部として編集されました。
オープンレポートは報告可能な現象学の範囲を拡張しますが、特に体系的にパターンを特定する上で、それらの分析は重要な課題を示しています。
この課題に対処するために、Dreamacineのテキストベースのレポートから潜在的な体験的トピックを直接明らかにして解釈するために、大規模な言語モデルとトピックモデリングを活用するデータ駆動型アプローチを実装しました。
私たちの分析により、SLSの科学的研究で一般的に文書化された単純なVHSの存在が確認され、意識と複雑な幻覚の変化された状態の経験も明らかになりました。
これらの調査結果に基づいて、当社の計算アプローチは、標準的なアンケートを通じて容易に特定されていない経験をキャプチャし、自由回答形式の現象学的レポートのデータ駆動型分析を可能にすることにより、主観的な経験の体系的な研究を拡大します。
経験の豊富で多面的な側面を明らかにすることにより、私たちの研究は、計算(ニューロ)現象学の新たな分野における自然言語処理と大規模な言語モデルの可能性を強調しながら、塩鏡誘導現象の理解を広げます。
より一般的には、このアプローチは、多様な研究ドメイン全体で主観的な経験の微妙な隠されたパターンを明らかにするための実質的に適用可能な方法論を提供します。

要約(オリジナル)

Stroboscopic light stimulation (SLS) on closed eyes typically induces simple visual hallucinations (VHs), characterised by vivid, geometric and colourful patterns. A dataset of 862 sentences, extracted from 422 open subjective reports, was recently compiled as part of the Dreamachine programme (Collective Act, 2022), an immersive multisensory experience that combines SLS and spatial sound in a collective setting. Although open reports extend the range of reportable phenomenology, their analysis presents significant challenges, particularly in systematically identifying patterns. To address this challenge, we implemented a data-driven approach leveraging Large Language Models and Topic Modelling to uncover and interpret latent experiential topics directly from the Dreamachine’s text-based reports. Our analysis confirmed the presence of simple VHs typically documented in scientific studies of SLS, while also revealing experiences of altered states of consciousness and complex hallucinations. Building on these findings, our computational approach expands the systematic study of subjective experience by enabling data-driven analyses of open-ended phenomenological reports, capturing experiences not readily identified through standard questionnaires. By revealing rich and multifaceted aspects of experiences, our study broadens our understanding of stroboscopically-induced phenomena while highlighting the potential of Natural Language Processing and Large Language Models in the emerging field of computational (neuro)phenomenology. More generally, this approach provides a practically applicable methodology for uncovering subtle hidden patterns of subjective experience across diverse research domains.

arxiv情報

著者 Romy Beauté,David J. Schwartzman,Guillaume Dumas,Jennifer Crook,Fiona Macpherson,Adam B. Barrett,Anil K. Seth
発行日 2025-02-25 16:11:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.NC | Mapping of Subjective Accounts into Interpreted Clusters (MOSAIC): Topic Modelling and LLM applied to Stroboscopic Phenomenology はコメントを受け付けていません

Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework

要約

大規模な言語モデル(LLMS)は、命令を理解し、人間のようなテキストを生成する顕著な能力を示し、基本的な動作の複製を超えて洗練されたエージェントシミュレーションを可能にします。
ただし、自由にカスタマイズ可能な文字を作成する可能性は未定のままです。
カスタマイズ可能な会話エージェントフレームワークを紹介します。LLMSを使用して、パーソナライズされた特性機能インジェクションを介して実際のキャラクターをシミュレートし、ユーザーの好みに応じて多様な文字作成を可能にします。
1,360の実世界のシーンで68のカスタマイズされた文字と13,971のマルチターンロールプレイングダイアログを含むSIMSCONVデータセットを提案します。
キャラクターは、最初に定義された要素(キャリア、願望、特性、スキル)を使用してカスタマイズされ、個人的およびソーシャルプロファイルを通じて拡張されます。
これに基づいて、さまざまな現実的な設定とトピック指定されたキャラクターインタラクションを組み込んだ自由にカスタマイズ可能なロールプレイングエージェントであるSimschatを紹介します。
SIMSCONVとWikirolevalの両方のデータセットの両方での実験結果は、既存のモデルと比較して、文字の一貫性、知識の精度、および適切な質問拒否を維持する際のSimschatの優れたパフォーマンスを示しています。
私たちのフレームワークは、より正確でカスタマイズ可能な人間のシミュレーションを開発するための貴重な洞察を提供します。
当社のデータとコードは、https://github.com/bernard-yang/simschatで公開されています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable ability to comprehend instructions and generate human-like text, enabling sophisticated agent simulation beyond basic behavior replication. However, the potential for creating freely customisable characters remains underexplored. We introduce the Customisable Conversation Agent Framework, which employs LLMs to simulate real-world characters through personalised characteristic feature injection, enabling diverse character creation according to user preferences. We propose the SimsConv dataset, comprising 68 customised characters and 13,971 multi-turn role-playing dialogues across 1,360 real-world scenes. Characters are initially customised using pre-defined elements (career, aspiration, traits, skills), then expanded through personal and social profiles. Building on this, we present SimsChat, a freely customisable role-playing agent incorporating various realistic settings and topic-specified character interactions. Experimental results on both SimsConv and WikiRoleEval datasets demonstrate SimsChat’s superior performance in maintaining character consistency, knowledge accuracy, and appropriate question rejection compared to existing models. Our framework provides valuable insights for developing more accurate and customisable human simulacra. Our data and code are publicly available at https://github.com/Bernard-Yang/SimsChat.

arxiv情報

著者 Bohao Yang,Dong Liu,Chenghao Xiao,Kun Zhao,Chen Tang,Chao Li,Lin Yuan,Guang Yang,Lanxiao Huang,Chenghua Lin
発行日 2025-02-25 16:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework はコメントを受け付けていません

BRIDO: Bringing Democratic Order to Abstractive Summarization

要約

幻覚とは、大規模な言語モデル(LLM)から生成された不正確で、無関係で、一貫性のないテキストを指します。
LLMはさまざまなタスクで大きな約束を示していますが、幻覚の問題は依然として多くの実用的な用途にとって大きな課題です。
この論文では、暴露バイアスを緩和することにより、抽象的なテキストの要約における幻覚の問題に取り組みます。
露出バイアスの緩和を対象とした既存のモデル、つまりBrioは、ルージュスコアのより良い要約品質を目指しています。
同様の露出バイアス緩和戦略を使用するが、幻覚が少ない目標を持つモデルを提案します。
候補者の出力のグループの中で、幻覚のある出力のグループは、グループ全体の少数派を構成すると推測します。
つまり、他の人との類似性が低い候補者は、幻覚コンテンツを含む可能性が高くなります。
私たちの方法はこの側面を使用し、対照的な学習を利用して、候補者を高い潜在性のルージュスコアで奨励します。
XSUMおよびCNN/DMの要約データセットで実験を行い、私たちの方法では、それぞれBrioの一貫性G平均スコアで6.25%と3.82%の改善が示されました。

要約(オリジナル)

Hallucination refers to the inaccurate, irrelevant, and inconsistent text generated from large language models (LLMs). While the LLMs have shown great promise in a variety of tasks, the issue of hallucination still remains a major challenge for many practical uses. In this paper, we tackle the issue of hallucination in abstract text summarization by mitigating exposure bias. Existing models targeted for exposure bias mitigation, namely BRIO, aim for better summarization quality in the ROUGE score. We propose a model that uses a similar exposure bias mitigation strategy but with a goal that is aligned with less hallucination. We conjecture that among a group of candidate outputs, ones with hallucinations will comprise the minority of the whole group. That is, candidates with less similarity with others will have a higher chance of containing hallucinated content. Our method uses this aspect and utilizes contrastive learning, incentivizing candidates with high inter-candidate ROUGE scores. We performed experiments on the XSum and CNN/DM summarization datasets, and our method showed 6.25% and 3.82% improvement, respectively, on the consistency G-Eval score over BRIO.

arxiv情報

著者 Junhyun Lee,Harshith Goka,Hyeonmok Ko
発行日 2025-02-25 16:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BRIDO: Bringing Democratic Order to Abstractive Summarization はコメントを受け付けていません

Does Table Source Matter? Benchmarking and Improving Multimodal Scientific Table Understanding and Reasoning

要約

最近の大規模な言語モデル(LLM)には高度なテーブル理解機能がありますが、テーブルのテキストシーケンスに変換することに依存しています。
マルチモーダル大手言語モデル(MLLM)は直接的な視覚処理を可能にしますが、固定入力画像解像度と不十分な数値推論機能により、科学テーブルの処理において制限に直面します。
動的な入力画像解像度を使用したマルチモーダル科学テーブルの理解と推論のための包括的なフレームワークを紹介します。
私たちのフレームワークは、3つの重要なコンポーネントで構成されています(1)MMSCI-PRE、52K科学テーブル構造認識サンプルのドメイン固有のテーブル構造学習データセット、(2)MMSCI-IN
タスク、および(3)MMSCI-EVAL、数値推論機能を評価するために特別に設計された3,114のテストサンプルを備えたベンチマーク。
広範な実験は、52Kの科学テーブル画像を使用したドメイン固有のアプローチが、150kの一般ドメインテーブルと比較して優れた性能を達成し、量よりもデータ品質の重要性を強調することを示しています。
動的な入力解像度を備えた提案されたテーブルベースのMLLMは、一般的なテーブルの理解と数値推論能力の両方が大幅に改善されており、保留データセットに強力な一般化があります。
私たちのコードとデータは、https://github.com/bernard-yang/mmsci_tableで公開されています。

要約(オリジナル)

Recent large language models (LLMs) have advanced table understanding capabilities but rely on converting tables into text sequences. While multimodal large language models (MLLMs) enable direct visual processing, they face limitations in handling scientific tables due to fixed input image resolutions and insufficient numerical reasoning capabilities. We present a comprehensive framework for multimodal scientific table understanding and reasoning with dynamic input image resolutions. Our framework consists of three key components: (1) MMSci-Pre, a domain-specific table structure learning dataset of 52K scientific table structure recognition samples, (2) MMSci-Ins, an instruction tuning dataset with 12K samples across three table-based tasks, and (3) MMSci-Eval, a benchmark with 3,114 testing samples specifically designed to evaluate numerical reasoning capabilities. Extensive experiments demonstrate that our domain-specific approach with 52K scientific table images achieves superior performance compared to 150K general-domain tables, highlighting the importance of data quality over quantity. Our proposed table-based MLLMs with dynamic input resolutions show significant improvements in both general table understanding and numerical reasoning capabilities, with strong generalisation to held-out datasets. Our code and data are publicly available at https://github.com/Bernard-Yang/MMSci_Table.

arxiv情報

著者 Bohao Yang,Yingji Zhang,Dong Liu,André Freitas,Chenghua Lin
発行日 2025-02-25 16:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Does Table Source Matter? Benchmarking and Improving Multimodal Scientific Table Understanding and Reasoning はコメントを受け付けていません

DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models

要約

事前に訓練された言語モデル(PLMS)は、さまざまな自然言語処理タスクで印象的な結果を達成しています。
しかし、最近の研究により、これらのモデルは、特に自然言語理解(NLU)タスクのために、言語の真の理解を開発する代わりに、表面的な特徴とショートカットに依存することが多いことが明らかになりました。
その結果、モデルはドメイン外データに一般化するのに苦労しています。
この作業では、このショートカット学習行動を軽減するために、発散に基づく正規化(DBR)を提案します。
私たちの方法は、元の例とショートカットトークンがマスクされた例の出力分布との間の発散を測定します。
このプロセスにより、モデルの予測がショートカットの機能やバイアスに過度に影響されるのを防ぎます。
3つのNLUタスクでモデルを評価し、ドメイン内の精度をほとんど失ってドメイン外のパフォーマンスを改善することがわかります。
私たちの結果は、ショートカットや表面的な特徴への依存を減らすことで、大規模な訓練を受けた言語モデルの一般化能力を高めることができることを示しています。

要約(オリジナル)

Pre-trained language models (PLMs) have achieved impressive results on various natural language processing tasks. However, recent research has revealed that these models often rely on superficial features and shortcuts instead of developing a genuine understanding of language, especially for natural language understanding (NLU) tasks. Consequently, the models struggle to generalize to out-of-domain data. In this work, we propose Divergence Based Regularization (DBR) to mitigate this shortcut learning behavior. Our method measures the divergence between the output distributions for original examples and examples where shortcut tokens have been masked. This process prevents the model’s predictions from being overly influenced by shortcut features or biases. We evaluate our model on three NLU tasks and find that it improves out-of-domain performance with little loss of in-domain accuracy. Our results demonstrate that reducing the reliance on shortcuts and superficial features can enhance the generalization ability of large pre-trained language models.

arxiv情報

著者 Zihao Li,Ruixiang Tang,Lu Cheng,Shuaiqiang Wang,Dawei Yin,Mengnan Du
発行日 2025-02-25 16:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models はコメントを受け付けていません