Temporal Entailment Pretraining for Clinical Language Models over EHR Data

要約

臨床言語モデルは、退院概要や医療ノートなどのドメイン固有のコーパスを事前に削除することにより、下流のタスクで強力なパフォーマンスを達成しています。
ただし、ほとんどのアプローチは、電子健康記録を静的な文書として扱い、患者の軌跡の一時的に進化し、因果的に誘惑された性質を無視しています。
この論文では、臨床ドメインの言語モデルの新規時間的密接な事前化目標を紹介します。
私たちの方法は、EHRセグメントを一時的に順序付けられた文のペアとして定式化し、モデルをトレーニングして、後の状態が以前の状態に関して、または矛盾する、または中立であるかどうかを判断します。
この一時的に構造化された事前トレーニングタスクを通じて、モデルは時間の経過とともに潜在的な臨床的推論を実行することを学び、予測および診断タスク全体に一般化する能力を向上させます。
私たちは、模倣IVに由来する大きなコーパスで脱線し、時間的臨床QA、早期警告予測、および疾患の進行モデリングに関する最先端の結果を示します。

要約(オリジナル)

Clinical language models have achieved strong performance on downstream tasks by pretraining on domain specific corpora such as discharge summaries and medical notes. However, most approaches treat the electronic health record as a static document, neglecting the temporally-evolving and causally entwined nature of patient trajectories. In this paper, we introduce a novel temporal entailment pretraining objective for language models in the clinical domain. Our method formulates EHR segments as temporally ordered sentence pairs and trains the model to determine whether a later state is entailed by, contradictory to, or neutral with respect to an earlier state. Through this temporally structured pretraining task, models learn to perform latent clinical reasoning over time, improving their ability to generalize across forecasting and diagnosis tasks. We pretrain on a large corpus derived from MIMIC IV and demonstrate state of the art results on temporal clinical QA, early warning prediction, and disease progression modeling.

arxiv情報

著者 Tatsunori Tanaka,Fi Zheng,Kai Sato,Zhifeng Li,Yuanyun Zhang,Shi Li
発行日 2025-04-25 07:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Temporal Entailment Pretraining for Clinical Language Models over EHR Data はコメントを受け付けていません

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

要約

直接選好最適化(DPO)は、明示的な報酬モデルなしで人間の好みを最適化することにより、大規模な言語モデル(LLMS)の人間のフィードバック(RLHF)からの強化学習を簡素化します。
DPOトレーニング中に、参照モデルがデータ重量アジャスターの役割を果たしていることがわかります。
ただし、DPOでポリシーモデルと参照モデルを同じように初期化する一般的な慣行は、非効率的なデータ利用につながり、パフォーマンスの上限を課す可能性があります。
一方、単純な選好最適化(SIMPO)に参照モデルがないため、トレーニングの堅牢性が低下し、壊滅的な忘却を防ぐためにより厳格な条件が必要になります。
この作業では、ガイド参照モデルを活用することにより優先最適化パフォーマンスを向上させるシンプルで効果的なDPOベースのトレーニングパラダイムであるPre-DPOを提案します。
このリファレンスモデルは、トレーニング選好データを通じて達成可能な最適なポリシー状態への視線を提供し、モデルに適したサンプルにより高い重みを適応的に割り当て、より適していないものに減少するサンプルに適応的に割り当てるガイドメカニズムとして機能します。
Alpacaeval 2.0およびArena-Hard V0.1ベンチマークに関する広範な実験は、外部モデルや追加データに依存せずに、Pre-DPOがDPOとSIMPOの両方のパフォーマンスを一貫して改善することを示しています。

要約(オリジナル)

Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.

arxiv情報

著者 Junshu Pan,Wei Shen,Shulin Huang,Qiji Zhou,Yue Zhang
発行日 2025-04-25 07:47:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model はコメントを受け付けていません

EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter)

要約

名前付きエンティティ認識(NER)は、非構造化データから名前付きエンティティ(NE)を人、組織、場所、日付、時間などの事前定義されたカテゴリに識別および分類することにより、さまざまな自然言語処理(NLP)タスクで極めて重要な役割を果たします。
高リソース言語と一般的なドメインについては広範な研究が存在しますが、特に教育のようなドメイン固有のコンテキスト内でウルドゥー語のNERは依存していないままです。
これは、このドメインのターゲットリソースの緊急の必要性を強調する、学術的な役割、コース名、制度用語などのエンティティを正確に特定する既存のモデルの能力を制限する教育コンテンツの注釈付きデータセットの不足によるものです。
私たちの知る限り、この目的のためにウルドゥー語のドメインにデータセットは存在しません。
この目的を達成するために、この研究は3つの重要な貢献をします。
まず、教育ドメインに関連する13のユニークな最も重要なエンティティを含むEdu-ner-2025という名前の教育ドメインに、手動で注釈付きのデータセットを作成しました。
第二に、注釈のプロセスとガイドラインについて詳しく説明し、Edu-ner-2025データセットにラベルを付けることの課題について説明します。
第三に、形式的なウルドゥー語のテキストで一般的な形態学的な複雑さや曖昧さなど、重要な言語的課題に対処して分析しました。

要約(オリジナル)

Named Entity Recognition (NER) plays a pivotal role in various Natural Language Processing (NLP) tasks by identifying and classifying named entities (NEs) from unstructured data into predefined categories such as person, organization, location, date, and time. While extensive research exists for high-resource languages and general domains, NER in Urdu particularly within domain-specific contexts like education remains significantly underexplored. This is Due to lack of annotated datasets for educational content which limits the ability of existing models to accurately identify entities such as academic roles, course names, and institutional terms, underscoring the urgent need for targeted resources in this domain. To the best of our knowledge, no dataset exists in the domain of the Urdu language for this purpose. To achieve this objective this study makes three key contributions. Firstly, we created a manually annotated dataset in the education domain, named EDU-NER-2025, which contains 13 unique most important entities related to education domain. Second, we describe our annotation process and guidelines in detail and discuss the challenges of labelling EDU-NER-2025 dataset. Third, we addressed and analyzed key linguistic challenges, such as morphological complexity and ambiguity, which are prevalent in formal Urdu texts.

arxiv情報

著者 Fida Ullah,Muhammad Ahmad,Muhammad Tayyab Zamir,Muhammad Arif,Grigori sidorov,Edgardo Manuel Felipe Riverón,Alexander Gelbukh
発行日 2025-04-25 07:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter) はコメントを受け付けていません

Aligning Language Models for Icelandic Legal Text Summarization

要約

法的領域での言語モデルの統合は、プロセスを合理化し、広範なワークロードの管理における効率を向上させるためのかなりの約束を抱えています。
ただし、専門の用語、微妙な言語、正式なスタイルの法的テキストは、大きな課題を提示する可能性があります。
この研究では、選好ベースのトレーニング技術、特に人間のフィードバックからの学習と直接選好の最適化からの強化により、ドメイン固有の言語標準とユーザーの好みに合わせたアイスランドの法的要約を生成するモデルのパフォーマンスを強化できるかどうかを調べます。
設定トレーニングで微調整されたモデルを、従来の監視学習を使用しているモデルと比較します。
結果は、優先トレーニングが標準的な微調整よりも生成された要約の法的正確性を改善するが、アイスランド語の言語使用の全体的な品質を大幅に向上させないことを示しています。
自動化されたメトリックと人間の評価の矛盾は、法的領域の言語モデルの開発における定性的評価の重要性をさらに強調しています。

要約(オリジナル)

The integration of language models in the legal domain holds considerable promise for streamlining processes and improving efficiency in managing extensive workloads. However, the specialized terminology, nuanced language, and formal style of legal texts can present substantial challenges. This study examines whether preference-based training techniques, specifically Reinforcement Learning from Human Feedback and Direct Preference Optimization, can enhance models’ performance in generating Icelandic legal summaries that align with domain-specific language standards and user preferences. We compare models fine-tuned with preference training to those using conventional supervised learning. Results indicate that preference training improves the legal accuracy of generated summaries over standard fine-tuning but does not significantly enhance the overall quality of Icelandic language usage. Discrepancies between automated metrics and human evaluations further underscore the importance of qualitative assessment in developing language models for the legal domain.

arxiv情報

著者 Þórir Hrafn Harðarson,Hrafn Loftsson,Stefán Ólafsson
発行日 2025-04-25 08:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Aligning Language Models for Icelandic Legal Text Summarization はコメントを受け付けていません

HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks

要約

機構的解釈は、概念(例えば、人の出生年)を媒介し、予測可能な操作を可能にするニューラルネットワークの特徴(隠されたアクティベーション空間の方向)を特定する上で大きな進歩を遂げました。
分散アライメント検索(DAS)は、反事実的なデータから監督を活用して、非表示状態内の概念機能を学習しますが、DASは潜在的な機能の場所でブルートフォース検索を実施する余裕があると想定しています。
これに対処するために、(1)コンセプトが実現する残差ストリームのトークンポジションを自動的に見つけるトランスベースのハイパーネットワークアーキテクチャであるHyperDasを提示し、(2)コンセプトの残留ストリームベクターの特徴を構築します。
LLAMA3-8Bを使用した実験では、HyperDasは、隠された状態で概念を解くためにRavel Benchmarkで最先端のパフォーマンスを達成します。
さらに、HyperDAS(すべての強力な解釈方法と同様)が忠実に解釈するのではなく、ターゲットモデルに新しい情報を挿入する可能性があるという懸念を軽減するために行った設計上の決定をレビューします。

要約(オリジナル)

Mechanistic interpretability has made great strides in identifying neural network features (e.g., directions in hidden activation space) that mediate concepts(e.g., the birth year of a person) and enable predictable manipulation. Distributed alignment search (DAS) leverages supervision from counterfactual data to learn concept features within hidden states, but DAS assumes we can afford to conduct a brute force search over potential feature locations. To address this, we present HyperDAS, a transformer-based hypernetwork architecture that (1) automatically locates the token-positions of the residual stream that a concept is realized in and (2) constructs features of those residual stream vectors for the concept. In experiments with Llama3-8B, HyperDAS achieves state-of-the-art performance on the RAVEL benchmark for disentangling concepts in hidden states. In addition, we review the design decisions we made to mitigate the concern that HyperDAS (like all powerful interpretabilty methods) might inject new information into the target model rather than faithfully interpreting it.

arxiv情報

著者 Jiuding Sun,Jing Huang,Sidharth Baskaran,Karel D’Oosterlinck,Christopher Potts,Michael Sklar,Atticus Geiger
発行日 2025-04-25 09:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks はコメントを受け付けていません

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

要約

このペーパーでは、実際の知識の中で、時間的文脈の変動に対する言語モデル(LMS)の堅牢性を探ります。
LMSが、正しいコンテキストと正しいと区別するように依頼することにより、定義された期間にわたって有効な過去の事実と一時的なコンテキストを正しく関連付けることができるかどうかを調べます。
LMSの精度は、有効期間からの誤ったコンテキストの距離とコンテキストの粒度という2つの次元に沿って分析されます。
この目的のために、TimeStressと呼ばれるデータセットが導入され、18の多様なLMSの評価が可能になります。
結果は、最高のLMが、人間が犯さない重要なエラーを伴う、研究された事実の6%のみに対して完全な精度を達成することを明らかにしています。
この作業は、時間表現における現在のLMSの制限を強調しています。
さらなる調査のためにすべてのデータとコードを提供します。

要約(オリジナル)

This paper explores the robustness of language models (LMs) to variations in the temporal context within factual knowledge. It examines whether LMs can correctly associate a temporal context with a past fact valid over a defined period, by asking them to differentiate correct from incorrect contexts. The accuracy of LMs is analyzed along two dimensions: the distance of the incorrect context from the validity period and the granularity of the context. To this end, a dataset called TimeStress is introduced, enabling the evaluation of 18 diverse LMs. Results reveal that the best LM achieves perfect accuracy for only 6% of the studied facts, with critical errors that humans would not make. This work highlights the limitations of current LMs in temporal representation. We provide all data and code for further research.

arxiv情報

著者 Hichem Ammar Khodja,Frédéric Béchet,Quentin Brabant,Alexis Nasr,Gwénolé Lecorvé
発行日 2025-04-25 09:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations はコメントを受け付けていません

Optimising ChatGPT for creativity in literary translation: A case study from English into Dutch, Chinese, Catalan and Spanish

要約

この調査では、文学テキストの創造性に焦点を当てた、4つの言語の6つの異なる構成におけるChAT-GPTマシン翻訳(MT)の出力の変動性を検証します。
さまざまなテキストの粒度レベル、温度設定、および創造性スコアフォーミュラの促進戦略でGPT翻訳を評価します。
最小限の命令でChatGptを促すと、最高の創造的な翻訳が生成されることがわかりました。「次のテキストを創造的に」1.0の温度で他の構成を上回り、スペイン語、オランダ語、中国語で深くすることができます。
それにもかかわらず、ChatGptは人間の翻訳(HT)と比較して一貫してパフォーマンスを下回っています。

要約(オリジナル)

This study examines the variability of Chat-GPT machine translation (MT) outputs across six different configurations in four languages,with a focus on creativity in a literary text. We evaluate GPT translations in different text granularity levels, temperature settings and prompting strategies with a Creativity Score formula. We found that prompting ChatGPT with a minimal instruction yields the best creative translations, with ‘Translate the following text into [TG] creatively’ at the temperature of 1.0 outperforming other configurations and DeepL in Spanish, Dutch, and Chinese. Nonetheless, ChatGPT consistently underperforms compared to human translation (HT).

arxiv情報

著者 Shuxiang Du,Ana Guerberof Arenas,Antonio Toral,Kyo Gerrits,Josep Marco Borillo
発行日 2025-04-25 10:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Optimising ChatGPT for creativity in literary translation: A case study from English into Dutch, Chinese, Catalan and Spanish はコメントを受け付けていません

Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution

要約

セマンティックな類似性測定は、ドキュメント分析、要件マッチング、ユーザー入力解釈などの自然言語処理タスクの重要なコンポーネントです。
ただし、個々の測定のパフォーマンスはデータセットによって大きく異なります。
これに対処するために、多くの場合、複数のメジャーを組み合わせたアンサンブルアプローチが採用されます。
このペーパーでは、セマンティックな類似性アンサンブルを構築するための文法の進化に基づいた自動戦略を紹介します。
この方法は、ヒト標識類似性スコアとの相関を最大化する集約関数を進化させます。
標準ベンチマークデータセットの実験は、提案されたアプローチが精度の観点から既存のアンサンブル技術を上回ることを示しています。
結果は、適応的で正確な類似性モデルを設計する際の文法的進化の有効性を裏付けています。
私たちのアプローチを示すソースコードは、https://github.com/jorge-martinez-gil/sesigeからダウンロードできます。

要約(オリジナル)

Semantic similarity measures are a key component in natural language processing tasks such as document analysis, requirement matching, and user input interpretation. However, the performance of individual measures varies considerably across datasets. To address this, ensemble approaches that combine multiple measures are often employed. This paper presents an automated strategy based on grammatical evolution for constructing semantic similarity ensembles. The method evolves aggregation functions that maximize correlation with human-labeled similarity scores. Experiments on standard benchmark datasets demonstrate that the proposed approach outperforms existing ensemble techniques in terms of accuracy. The results confirm the effectiveness of grammatical evolution in designing adaptive and accurate similarity models. The source code that illustrates our approach can be downloaded from https://github.com/jorge-martinez-gil/sesige.

arxiv情報

著者 Jorge Martinez-Gil
発行日 2025-04-25 10:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution はコメントを受け付けていません

Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family

要約

RAG、検索、およびソースの要約のための新世代の小さな推論モデルを紹介します。
Pleias-Rag-350mおよびPleias-Rag-1Bは、一般的なコーパスから多種多様な多言語オープンソースの検索をエミュレートする大きな合成データセットで中間訓練されています。
それらは、引用と接地のネイティブサポートを文字通りの引用と根拠とし、クエリルーティング、クエリ再定式化、ソースの再ランキングなど、RAG​​ワークフローに関連する複数の機能を再統合します。
PLEIAS-RAG-350MおよびPLEIAS-RAG-1Bは、標準化されたRAGベンチマーク(HotPotqa、2Wiki)の40億パラメーターよりもSLMを上回り、Qwen-2.5-7B、Llama-3.1-8B、Gemma-3-4Bなどの一般的な大型モデルと競合しています。
これらは、これまでの唯一のSLMSであり、主要なヨーロッパの言語全体で一貫したRAGパフォーマンスを維持し、声明の体系的な参照の基礎を確保しています。
制約されたインフラストラクチャの展開の規模と展開の容易さと、設計によるより高い事実性により、モデルは生成AIのさまざまな新しいユースケースのロックを解除します。

要約(オリジナル)

We introduce a new generation of small reasoning models for RAG, search, and source summarization. Pleias-RAG-350m and Pleias-RAG-1B are mid-trained on a large synthetic dataset emulating the retrieval of a wide variety of multilingual open sources from the Common Corpus. They provide native support for citation and grounding with literal quotes and reintegrate multiple features associated with RAG workflows, such as query routing, query reformulation, and source reranking. Pleias-RAG-350m and Pleias-RAG-1B outperform SLMs below 4 billion parameters on standardized RAG benchmarks (HotPotQA, 2wiki) and are competitive with popular larger models, including Qwen-2.5-7B, Llama-3.1-8B, and Gemma-3-4B. They are the only SLMs to date maintaining consistent RAG performance across leading European languages and ensuring systematic reference grounding for statements. Due to their size and ease of deployment on constrained infrastructure and higher factuality by design, the models unlock a range of new use cases for generative AI.

arxiv情報

著者 Pierre-Carl Langlais,Pavel Chizhov,Mattia Nee,Carlos Rosas Hinostroza,Matthieu Delsart,Irène Girard,Othman Hicheur,Anastasia Stasenko,Ivan P. Yamshchikov
発行日 2025-04-25 10:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family はコメントを受け付けていません

Efficient Single-Pass Training for Multi-Turn Reasoning

要約

大規模な言語モデル(LLMS)をトレーニングして、数学やコーディングなどのさまざまなタスクでパフォーマンスを向上させることが示されていることが示されています。
ただし、マルチターン推論データセットでの微調整LLMは、独自の課題を提示します。LLMは、LLMへの後続の入力から除外される推論トークンを生成する必要があります。
この不一致により、マルチターンの非合理的なデータセットで微調整すると、1回のフォワードパスで会話全体を処理できなくなります。
このペーパーでは、応答トークンの複製を介してこの制限を克服する新しいアプローチと、適切な視認性の制約を強制するカスタム注意マスクを提案します。
私たちのアプローチは、トレーニング時間を大幅に短縮し、マルチターン推論データセットで効率的な微調整を可能にします。

要約(オリジナル)

Training Large Language Models ( LLMs) to generate explicit reasoning before they produce an answer has been shown to improve their performance across various tasks such as mathematics and coding. However, fine-tuning LLMs on multi-turn reasoning datasets presents a unique challenge: LLMs must generate reasoning tokens that are excluded from subsequent inputs to the LLM. This discrepancy prevents us from processing an entire conversation in a single forward pass-an optimization readily available when we fine-tune on a multi-turn non-reasoning dataset. This paper proposes a novel approach that overcomes this limitation through response token duplication and a custom attention mask that enforces appropriate visibility constraints. Our approach significantly reduces the training time and allows efficient fine-tuning on multi-turn reasoning datasets.

arxiv情報

著者 Ritesh Goru,Shanay Mehta,Prateek Jain
発行日 2025-04-25 10:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Efficient Single-Pass Training for Multi-Turn Reasoning はコメントを受け付けていません