Token-based Decision Criteria Are Suboptimal in In-context Learning

要約

コンテキスト内学習(ICL)は通常、手動で選択されたラベルトークンの出力確率から分類基準を利用します。
ただし、翻訳による繊細なキャリブレーションと制約のある回転が適用されたにもかかわらず、このようなトークンベースの分類基準は、最適ではない決定境界につながると主張します。
この問題に対処するために、トークンの確率を放棄し、LMの最後の隠された状態で最も近い重心分類器を使用する隠されたキャリブレーションを提案します。
詳細には、予測ラベルとしてテストサンプルに設定されたキャリブレーションから以前に推定された最寄りの重心のラベルを割り当てます。
6つのモデルと10の分類データセットでの実験は、隠されたキャリブレーションが現在のトークンベースのベースラインを約20%〜50%上回ることを示しており、ICLで強力な最先端の最先端を達成しています。
私たちのさらなる分析は、隠されたキャリブレーションがクラス間のオーバーラップが少ないより良い分類基準を見つけることを示しており、LMSはデモンストレーションの助けを借りて線形分離可能なクラス内クラスターを提供します。
当社の公式コードの実装は、https://github.com/hc495/hidden_​​calibrationで見つけることができます。

要約(オリジナル)

In-Context Learning (ICL) typically utilizes classification criteria from output probabilities of manually selected label tokens. However, we argue that such token-based classification criteria lead to suboptimal decision boundaries, despite delicate calibrations through translation and constrained rotation applied. To address this problem, we propose Hidden Calibration, which renounces token probabilities and uses the nearest centroid classifier on the LM’s last hidden states. In detail, we assign the label of the nearest centroid previously estimated from a calibration set to the test sample as the predicted label. Our experiments on 6 models and 10 classification datasets indicate that Hidden Calibration consistently outperforms current token-based baselines by about 20%~50%, achieving a strong state-of-the-art in ICL. Our further analysis demonstrates that Hidden Calibration finds better classification criteria with less inter-class overlap, and LMs provide linearly separable intra-class clusters with the help of demonstrations, which supports Hidden Calibration and gives new insights into the principle of ICL. Our official code implementation can be found at https://github.com/hc495/Hidden_Calibration.

arxiv情報

著者 Hakaze Cho,Yoshihiro Sakai,Mariko Kato,Kenshiro Tanaka,Akira Ishii,Naoya Inoue
発行日 2025-02-05 13:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Token-based Decision Criteria Are Suboptimal in In-context Learning はコメントを受け付けていません

SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

要約

GPT-4、Palm、Llamaなどの大規模な言語モデル(LLM)は、さまざまな推論タスクの大幅な改善を示しています。
ただし、Llama-3-8BやDeepseekmath-Baseなどの小さなモデルは、推論エラーを効果的に特定して修正できないため、複雑な数学的推論に苦労しています。
最近の反射ベースの方法は、自己反省と自己修正を可能にすることにより、これらの問題に対処することを目的としていますが、推論ステップでエラーを独立して検出することで課題に直面しています。
これらの制限を克服するために、大規模な教師モデルを使用して、小規模な学生モデルの推論と反射プロセスの両方を監督および修正する新しい2段階のフレームワークであるSupercorrectを提案します。
最初の段階では、教師モデルから階層的な高レベルで詳細な思考テンプレートを抽出し、より微調整された推論思考を引き出すことで学生モデルを導きます。
第2段階では、トレーニング中の教師の修正トレースに従って、学生モデルの自己修正能力を高めるために、クロスモデルコラボレーション直接優先嗜好最適化(DPO)を導入します。
このクロスモデルのDPOアプローチは、生徒モデルに、教師モデルからのエラー駆動型の洞察を使用して誤った考えを効果的に見つけて解決することを教え、その考えのボトルネックを破り、挑戦的な問題に取り組むために新しいスキルと知識を獲得します。
広範な実験は、以前の方法よりも一貫して私たちの優位性を示しています。
特に、当社のSuperCorrect-7Bモデルは、MATH/GSM8Kベンチマークで強力なDeepSeekMath-7B、QWEN2.5-MATH-7Bを15.1%/6.3%上回り、すべての7Bモデルの間で新しいSOTAパフォーマンスを達成します。
コード:https://github.com/yangling0818/supercorrect-llm

要約(オリジナル)

Large language models (LLMs) like GPT-4, PaLM, and LLaMA have shown significant improvements in various reasoning tasks. However, smaller models such as Llama-3-8B and DeepSeekMath-Base still struggle with complex mathematical reasoning because they fail to effectively identify and correct reasoning errors. Recent reflection-based methods aim to address these issues by enabling self-reflection and self-correction, but they still face challenges in independently detecting errors in their reasoning steps. To overcome these limitations, we propose SuperCorrect, a novel two-stage framework that uses a large teacher model to supervise and correct both the reasoning and reflection processes of a smaller student model. In the first stage, we extract hierarchical high-level and detailed thought templates from the teacher model to guide the student model in eliciting more fine-grained reasoning thoughts. In the second stage, we introduce cross-model collaborative direct preference optimization (DPO) to enhance the self-correction abilities of the student model by following the teacher’s correction traces during training. This cross-model DPO approach teaches the student model to effectively locate and resolve erroneous thoughts with error-driven insights from the teacher model, breaking the bottleneck of its thoughts and acquiring new skills and knowledge to tackle challenging problems. Extensive experiments consistently demonstrate our superiority over previous methods. Notably, our SuperCorrect-7B model significantly surpasses powerful DeepSeekMath-7B by 7.8%/5.3% and Qwen2.5-Math-7B by 15.1%/6.3% on MATH/GSM8K benchmarks, achieving new SOTA performance among all 7B models. Code: https://github.com/YangLing0818/SuperCorrect-llm

arxiv情報

著者 Ling Yang,Zhaochen Yu,Tianjun Zhang,Minkai Xu,Joseph E. Gonzalez,Bin Cui,Shuicheng Yan
発行日 2025-02-05 13:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights はコメントを受け付けていません

EuskañolDS: A Naturally Sourced Corpus for Basque-Spanish Code-Switching

要約

コードスイッチング(CS)は、主に関連データがないため、自然言語処理(NLP)において重要な課題のままです。
イベリア半島の北にあるバスクとスペイン語の言語との接触の文脈では、CSは正式な自発的相互作用と非公式の両方の相互作用の両方で頻繁に発生します。
ただし、この現象を分析し、この言語ペアのコードスイッチング言語を理解および生成できるモデルの開発と評価をサポートするリソースはほとんど存在しません。
バスクのスペインのコードスイッチングのための自然に調達したコーパスを開発するための最初のアプローチを紹介します。
私たちの方法論は、言語識別モデルを使用して以前に利用可能なコーパスからCSテキストを識別することで構成され、CSインスタンスの信頼できるサブセットを取得するために手動で検証されます。
コーパスの特性を提示し、Euska \ 〜Noldsという名前で利用できるようにします。

要約(オリジナル)

Code-switching (CS) remains a significant challenge in Natural Language Processing (NLP), mainly due a lack of relevant data. In the context of the contact between the Basque and Spanish languages in the north of the Iberian Peninsula, CS frequently occurs in both formal and informal spontaneous interactions. However, resources to analyse this phenomenon and support the development and evaluation of models capable of understanding and generating code-switched language for this language pair are almost non-existent. We introduce a first approach to develop a naturally sourced corpus for Basque-Spanish code-switching. Our methodology consists of identifying CS texts from previously available corpora using language identification models, which are then manually validated to obtain a reliable subset of CS instances. We present the properties of our corpus and make it available under the name Euska\~nolDS.

arxiv情報

著者 Maite Heredia,Jeremy Barnes,Aitor Soroa
発行日 2025-02-05 14:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | EuskañolDS: A Naturally Sourced Corpus for Basque-Spanish Code-Switching はコメントを受け付けていません

Comply: Learning Sentences with Complex Weights inspired by Fruit Fly Olfaction

要約

生物学的にインスピレーションを受けたニューラルネットワークは、データ分布をモデル化するための代替手段を提供します。
Flyvecは、Fruit Flyの嗅覚回路からインスピレーションを引き出し、単語の埋め込みを学習するタスクに取り組む最近の例です。
驚くべきことに、このモデルは、テキストをエンコードするように特別に設計された深い学習アプローチに対して競争力のあるパフォーマンスを発揮します。
このパフォーマンスをさらに改善できるかどうかという疑問を投げかけます。
このために、Complyを紹介します。
複雑な重みを介して位置情報を組み込むことにより、単一層ニューラルネットワークがシーケンス表現を学習できるようにします。
私たちの実験は、FlyVecに取って代わるだけでなく、最先端のモデルが大幅に大きくなることと同等に機能することを示しています。
追加のパラメーターなしでこれを達成します。
遵守して、ニューロンの重量から明示的に解釈できる文のまばらな文脈表現を生成します。

要約(オリジナル)

Biologically inspired neural networks offer alternative avenues to model data distributions. FlyVec is a recent example that draws inspiration from the fruit fly’s olfactory circuit to tackle the task of learning word embeddings. Surprisingly, this model performs competitively even against deep learning approaches specifically designed to encode text, and it does so with the highest degree of computational efficiency. We pose the question of whether this performance can be improved further. For this, we introduce Comply. By incorporating positional information through complex weights, we enable a single-layer neural network to learn sequence representations. Our experiments show that Comply not only supersedes FlyVec but also performs on par with significantly larger state-of-the-art models. We achieve this without additional parameters. Comply yields sparse contextual representations of sentences that can be interpreted explicitly from the neuron weights.

arxiv情報

著者 Alexei Figueroa,Justus Westerhoff,Golzar Atefi,Dennis Fast,Benjamin Winter,Felix Alexader Gers,Alexander Löser,Wolfang Nejdl
発行日 2025-02-05 14:17:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE | Comply: Learning Sentences with Complex Weights inspired by Fruit Fly Olfaction はコメントを受け付けていません

Improve Decoding Factuality by Token-wise Cross Layer Entropy of Large Language Models

要約

印象的な能力にもかかわらず、大規模な言語モデル(LLM)は、正しい知識を持っている場合でも、不正確または製造されたコンテンツを生成するという幻覚の問題にしばしば苦労しています。
この論文では、隠された状態の予測の変化と出力の事実性との相関の調査を、より深いトークンごとのレベルに拡張します。
洞察に基づいて、クロスレイヤーエントロピー強化デコード(END)を提案します。これは、追加のトレーニングを必要とせずに幻覚を軽減するデコード方法です。
終了は、レイヤー間の内部確率の変化をレバレッジして、各候補トークンに必要な事実の知識を個別に定量化し、最終的な予測分布を調整して、より高い事実性でトークンに優先順位を付けます。
幻覚とQAベンチマークの両方での実験は、堅牢なQA精度を維持しながら、生成されたコンテンツの真実性と情報性を大幅に向上させることを示しています。
さらに、私たちの仕事は、固有の知識と出力の事実性との相関関係を理解することに関するより深い視点を提供します。

要約(オリジナル)

Despite their impressive capacities, Large language models (LLMs) often struggle with the hallucination issue of generating inaccurate or fabricated content even when they possess correct knowledge. In this paper, we extend the exploration of the correlation between hidden-state prediction changes and output factuality into a deeper, token-wise level. Based on the insights , we propose cross-layer Entropy eNhanced Decoding (END), a decoding method that mitigates hallucinations without requiring extra training. END leverages inner probability changes across layers to individually quantify the factual knowledge required for each candidate token, and adjusts the final predicting distribution to prioritize tokens with higher factuality. Experiments on both hallucination and QA benchmarks demonstrate that END significantly enhances the truthfulness and informativeness of generated content while maintaining robust QA accuracy. Moreover, our work provides a deeper perspective on understanding the correlations between inherent knowledge and output factuality.

arxiv情報

著者 Jialiang Wu,Yi Shen,Sijia Liu,Yi Tang,Sen Song,Xiaoyi Wang,Longjun Cai
発行日 2025-02-05 14:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improve Decoding Factuality by Token-wise Cross Layer Entropy of Large Language Models はコメントを受け付けていません

Mitigating Language Bias in Cross-Lingual Job Retrieval: A Recruitment Platform Perspective

要約

履歴書と雇用投稿のテキストコンポーネントを理解することは、仕事に一致する精度を向上させ、オンライン採用プラットフォームで就職活動システムを最適化するために重要です。
ただし、既存の作業は主にこの情報内の個々のコンポーネントの分析に焦点を当てており、各側面を分析するために複数の専門的なツールを必要とします。
このようなばらばらの方法は、採用関連のテキスト処理における全体的な一般化可能性を潜在的に妨げる可能性があります。
したがって、複数のコンポーネントを統合文エンコーダに共同で学習するために、マルチタスクデュアルエンコーダーフレームワークを使用する統一文エンコーダーを提案します。
結果は、モデルサイズが小さいにもかかわらず、私たちの方法が他の最先端モデルよりも優れていることを示しています。
さらに、エンコーダーの言語バイアスを評価するために、新しいメトリックの言語バイアスKullback-Leibler Divergence(LBKL)を提案し、大幅なバイアスの削減と優れた言語的パフォーマンスを示します。

要約(オリジナル)

Understanding the textual components of resumes and job postings is critical for improving job-matching accuracy and optimizing job search systems in online recruitment platforms. However, existing works primarily focus on analyzing individual components within this information, requiring multiple specialized tools to analyze each aspect. Such disjointed methods could potentially hinder overall generalizability in recruitment-related text processing. Therefore, we propose a unified sentence encoder that utilized multi-task dual-encoder framework for jointly learning multiple component into the unified sentence encoder. The results show that our method outperforms other state-of-the-art models, despite its smaller model size. Moreover, we propose a novel metric, Language Bias Kullback-Leibler Divergence (LBKL), to evaluate language bias in the encoder, demonstrating significant bias reduction and superior cross-lingual performance.

arxiv情報

著者 Napat Laosaengpha,Thanit Tativannarat,Attapol Rutherford,Ekapol Chuangsuwanich
発行日 2025-02-05 14:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Mitigating Language Bias in Cross-Lingual Job Retrieval: A Recruitment Platform Perspective はコメントを受け付けていません

Leveraging Encoder-only Large Language Models for Mobile App Review Feature Extraction

要約

モバイルアプリのレビュー分析は、ユーザー生成ドキュメントの品質、主観的なバイアス、およびノイズの多いコンテンツのために、独自の課題を提示します。
これらのレビューから機能を抽出することは、機能の優先順位付けやセンチメント分析などのタスクに不可欠ですが、依然として困難な作業です。
一方、トランスアーキテクチャに基づくエンコーダのみのモデルは、複数のソフトウェアエンジニアリングプロセスの分類および情報抽出タスクの有望な結果を示しています。
この研究では、エンコーダのみの大手言語モデルがモバイルアプリのレビューからの機能抽出を強化できるという仮説を調査します。
産業用コンテキストからクラウドソーシングの注釈を活用することにより、監視付きトークン分類タスクとして機能抽出を再定義します。
私たちのアプローチには、これらのモデルの事前トレーニングをユーザーレビューの大規模なコーパスで拡張して、コンテキストの理解を向上させ、インスタンス選択技術を採用してモデルの微調整を最適化することが含まれます。
経験的評価は、この方法が抽出された特徴の精度とリコールを改善し、パフォーマンス効率を高めることを示しています。
主な貢献には、特徴抽出、注釈付きデータセット、拡張事前訓練モデル、および費用対効果の高い微調整のためのインスタンス選択メカニズムへの新しいアプローチが含まれます。
この研究は、モバイルアプリのレビュー内で大規模な言語モデルを自然言語処理タスクに適用する際の実用的な方法と経験的証拠を提供し、機能抽出のパフォーマンスを向上させます。

要約(オリジナル)

Mobile app review analysis presents unique challenges due to the low quality, subjective bias, and noisy content of user-generated documents. Extracting features from these reviews is essential for tasks such as feature prioritization and sentiment analysis, but it remains a challenging task. Meanwhile, encoder-only models based on the Transformer architecture have shown promising results for classification and information extraction tasks for multiple software engineering processes. This study explores the hypothesis that encoder-only large language models can enhance feature extraction from mobile app reviews. By leveraging crowdsourced annotations from an industrial context, we redefine feature extraction as a supervised token classification task. Our approach includes extending the pre-training of these models with a large corpus of user reviews to improve contextual understanding and employing instance selection techniques to optimize model fine-tuning. Empirical evaluations demonstrate that this method improves the precision and recall of extracted features and enhances performance efficiency. Key contributions include a novel approach to feature extraction, annotated datasets, extended pre-trained models, and an instance selection mechanism for cost-effective fine-tuning. This research provides practical methods and empirical evidence in applying large language models to natural language processing tasks within mobile app reviews, offering improved performance in feature extraction.

arxiv情報

著者 Quim Motger,Alessio Miaschi,Felice Dell’Orletta,Xavier Franch,Jordi Marco
発行日 2025-02-05 14:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | Leveraging Encoder-only Large Language Models for Mobile App Review Feature Extraction はコメントを受け付けていません

A scale of conceptual orality and literacy: Automatic text categorization in the tradition of ‘Nähe und Distanz’

要約

KochとOesterreicherの「n \ ‘ahe und distanz」(n \’ ahe =即時性、概念的口頭、distanz =距離、概念的リテラシー)のモデルは、ドイツの言語学で絶えず使用されています。
ただし、コーパス言語分析で使用する統計的基盤はありませんが、経験的言語学にますます移動しています。
理論的には、特に、書かれたテキストは、言語的特徴によって概念的な口頭とリテラシーの規模で評価できることが規定されています。
この記事では、PCAに基づいたこのようなスケールを確立し、自動分析と組み合わせます。
新しいドイツ語の2つのコーパスは例として機能します。
確立された機能を評価する場合、中心的な発見は、テキストを差別化された方法でランク付けするために、概念的口頭とリテラシーの特徴を区別する必要があるということです。
スケールについては、コーパスコンピレーションでの使用を考慮して、およびより大きなコーパスでの分析のガイドとしても説明されています。
理論主導の出発点と「仕立てられた」次元として、Biberの次元1と比較したアプローチは、これらのサポート、制御タスクに特に適しています。

要約(オリジナル)

Koch and Oesterreicher’s model of ‘N\’ahe und Distanz’ (N\’ahe = immediacy, conceptual orality; Distanz = distance, conceptual literacy) is constantly used in German linguistics. However, there is no statistical foundation for use in corpus linguistic analyzes, while it is increasingly moving into empirical corpus linguistics. Theoretically, it is stipulated, among other things, that written texts can be rated on a scale of conceptual orality and literacy by linguistic features. This article establishes such a scale based on PCA and combines it with automatic analysis. Two corpora of New High German serve as examples. When evaluating established features, a central finding is that features of conceptual orality and literacy must be distinguished in order to rank texts in a differentiated manner. The scale is also discussed with a view to its use in corpus compilation and as a guide for analyzes in larger corpora. With a theory-driven starting point and as a ‘tailored’ dimension, the approach compared to Biber’s Dimension 1 is particularly suitable for these supporting, controlling tasks.

arxiv情報

著者 Volker Emmrich
発行日 2025-02-05 15:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A scale of conceptual orality and literacy: Automatic text categorization in the tradition of ‘Nähe und Distanz’ はコメントを受け付けていません

How do Humans and Language Models Reason About Creativity? A Comparative Analysis

要約

科学と工学における創造性評価は、人間とAIの両方の判断にますます基づいていますが、これらの評価の背後にある認知プロセスとバイアスはまだよく理解されていません。
評価を持つソリューションのサンプルを含む方法を含める方法を調べる2つの実験を実施しました。これは、評価者がオリジナリティスコアを説明し、遠隔のファセットの評価を説明することを担当する微細に融合した注釈プロトコルを使用して(日常のアイデアから「遠い」かどうか)、commonness
(応答がまれかどうか)、賢さ。
研究1では、正式な科学またはエンジニアリングトレーニングを受けた72人の専門家からの創造性評価を分析し、評価を受けたソリューションを受けた人(例)を受けた人を比較しなかった人と比較しました(例なし)。
計算テキスト分析により、例を持つ専門家と比較して、例のない専門家はより多くの比較言語(「より良い/悪い」)を使用し、ソリューションの珍しいものを強調し、比較のためにメモリの検索にもっと依存している可能性があることが明らかになりました。
研究2では、最先端のLLMSを使用した並行分析により、モデルは独創性を評価するときにアイデアの不明確性と遠隔性に優先され、アイデアの意味的な類似性に根ざした評価プロセスを示唆していることが明らかになりました。
例の条件では、真の独創性スコアを予測するLLM精度が改善されましたが、リモート性、まれ、および独創性との賢さの相関も大幅に増加しました – 0.99以上 – 個々のファセットのLLMS評価の均質化を示唆しています。
これらの発見は、人間とAIが創造性についてどのように推論しているかについての重要な意味を強調し、評価時に異なる集団が優先するものに対する分岐の好みを示唆しています。

要約(オリジナル)

Creativity assessment in science and engineering is increasingly based on both human and AI judgment, but the cognitive processes and biases behind these evaluations remain poorly understood. We conducted two experiments examining how including example solutions with ratings impact creativity evaluation, using a finegrained annotation protocol where raters were tasked with explaining their originality scores and rating for the facets of remoteness (whether the response is ‘far’ from everyday ideas), uncommonness (whether the response is rare), and cleverness. In Study 1, we analyzed creativity ratings from 72 experts with formal science or engineering training, comparing those who received example solutions with ratings (example) to those who did not (no example). Computational text analysis revealed that, compared to experts with examples, no-example experts used more comparative language (e.g., ‘better/worse’) and emphasized solution uncommonness, suggesting they may have relied more on memory retrieval for comparisons. In Study 2, parallel analyses with state-of-the-art LLMs revealed that models prioritized uncommonness and remoteness of ideas when rating originality, suggesting an evaluative process rooted around the semantic similarity of ideas. In the example condition, while LLM accuracy in predicting the true originality scores improved, the correlations of remoteness, uncommonness, and cleverness with originality also increased substantially – to upwards of 0.99 – suggesting a homogenization in the LLMs evaluation of the individual facets. These findings highlight important implications for how humans and AI reason about creativity and suggest diverging preferences for what different populations prioritize when rating.

arxiv情報

著者 Antonio Laverghetta Jr.,Tuhin Chakrabarty,Tom Hope,Jimmy Pronchick,Krupa Bhawsar,Roger E. Beaty
発行日 2025-02-05 15:08:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How do Humans and Language Models Reason About Creativity? A Comparative Analysis はコメントを受け付けていません

Efficient extraction of medication information from clinical notes: an evaluation in two languages

要約

目的:臨床物語から投薬情報を抽出するための新しい自然言語処理(NLP)方法の精度、計算コスト、および移植性を評価する。
材料と方法:エンティティの抽出と患者の薬物療法に関する関係のためのオリジナルの変圧器ベースのアーキテクチャを提案します。
最初に、このアプローチを使用して、フランスの臨床ノートのモデルを訓練および評価し、h \^opitaux Universitaires de strasbourgの新しく注釈付きコーパスを使用しました。
第二に、アプローチの携帯性は、2018 N2C2共有タスクから英語の臨床文書に関する評価を実施することにより評価されました。
情報抽出の精度と計算コストは​​、変圧器を使用した利用可能な方法と比較して評価されました。
結果:提案されたアーキテクチャは、フランス語と英語の両方で最先端の競争力のある関係性抽出自体のパフォーマンスのタスクで達成されます(F測定0.82および0.96対0.81および0.95)が、計算コストを削減します。
10。エンドツーエンド(エンティティ認識と関係の抽出と名付けられた)F1パフォーマンスは、フランス語および英語のコーパスで0.69および0.82です。
ディスカッション:英語のノート用に開発された既存のシステムは、合理的な努力を払ってフランスの病院の環境に展開されましたが、代替アーキテクチャは、フランス語と英語の両方の臨床の両方に同等の抽出パフォーマンスと低い計算上の影響を伴うエンドツーエンドの薬物情報抽出を提供することがわかりました。
それぞれテキスト処理。
結論:提案されたアーキテクチャを使用して、高性能および低い計算コストで臨床テキストから投薬情報を抽出することができ、その結果、通常限られた病院のITリソースに合っています

要約(オリジナル)

Objective: To evaluate the accuracy, computational cost and portability of a new Natural Language Processing (NLP) method for extracting medication information from clinical narratives. Materials and Methods: We propose an original transformer-based architecture for the extraction of entities and their relations pertaining to patients’ medication regimen. First, we used this approach to train and evaluate a model on French clinical notes, using a newly annotated corpus from H\^opitaux Universitaires de Strasbourg. Second, the portability of the approach was assessed by conducting an evaluation on clinical documents in English from the 2018 n2c2 shared task. Information extraction accuracy and computational cost were assessed by comparison with an available method using transformers. Results: The proposed architecture achieves on the task of relation extraction itself performance that are competitive with the state-of-the-art on both French and English (F-measures 0.82 and 0.96 vs 0.81 and 0.95), but reduce the computational cost by 10. End-to-end (Named Entity recognition and Relation Extraction) F1 performance is 0.69 and 0.82 for French and English corpus. Discussion: While an existing system developed for English notes was deployed in a French hospital setting with reasonable effort, we found that an alternative architecture offered end-to-end drug information extraction with comparable extraction performance and lower computational impact for both French and English clinical text processing, respectively. Conclusion: The proposed architecture can be used to extract medication information from clinical text with high performance and low computational cost and consequently suits with usually limited hospital IT resources

arxiv情報

著者 Thibaut Fabacher,Erik-André Sauleau,Emmanuelle Arcay,Bineta Faye,Maxime Alter,Archia Chahard,Nathan Miraillet,Adrien Coulet,Aurélie Névéol
発行日 2025-02-05 15:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Efficient extraction of medication information from clinical notes: an evaluation in two languages はコメントを受け付けていません