Lightweight Clinical Decision Support System using QLoRA-Fine-Tuned LLMs and Retrieval-Augmented Generation

要約

この研究論文では、医療における大規模な言語モデル(LLM)の適用を調査し、特に病院固有のデータと統合された検索された生成(RAG)を通じて医学的意思決定支援を強化し、量子化された低ランク適応(QLORA)を使用した微調整に焦点を当てています。
このシステムは、Llama 3.2-3B-Instructを基礎モデルとして利用しています。
コンテキスト関連のヘルスケア情報を埋め込み、取得することにより、システムは応答の精度を大幅に向上させます。
Qloraは、顕著なパラメーターの効率と記憶の最適化を促進し、特殊な量子化技術を通じて医療情報の完全性を維持します。
また、私たちの研究は、私たちのモデルがさまざまな医療ベンチマークで比較的うまく機能していることを示しており、基本的な医療提案をするために使用できることを示しています。
このホワイトペーパーでは、患者の症状や病歴からの疾患予測の強化、治療の提案、複雑な医療報告の効率的な要約など、そのアーキテクチャ、量子化方法、主要なヘルスケアアプリケーションなど、システムの技術コンポーネントについて詳しく説明しています。
倫理的な考慮事項と患者のプライバシー、データセキュリティ、および厳密な臨床検証の必要性に触れ、そのようなシステムを実際のヘルスケアワークフローに統合することの実際的な課題です。
さらに、軽量の量子重量は、低リソースの病院環境でも展開のスケーラビリティと容易さを保証します。
最後に、この論文は、LLMがヘルスケアに与えるより広い影響の分析で締めくくり、医療環境におけるLLMの将来の方向性を概説しています。

要約(オリジナル)

This research paper investigates the application of Large Language Models (LLMs) in healthcare, specifically focusing on enhancing medical decision support through Retrieval-Augmented Generation (RAG) integrated with hospital-specific data and fine-tuning using Quantized Low-Rank Adaptation (QLoRA). The system utilizes Llama 3.2-3B-Instruct as its foundation model. By embedding and retrieving context-relevant healthcare information, the system significantly improves response accuracy. QLoRA facilitates notable parameter efficiency and memory optimization, preserving the integrity of medical information through specialized quantization techniques. Our research also shows that our model performs relatively well on various medical benchmarks, indicating that it can be used to make basic medical suggestions. This paper details the system’s technical components, including its architecture, quantization methods, and key healthcare applications such as enhanced disease prediction from patient symptoms and medical history, treatment suggestions, and efficient summarization of complex medical reports. We touch on the ethical considerations-patient privacy, data security, and the need for rigorous clinical validation-as well as the practical challenges of integrating such systems into real-world healthcare workflows. Furthermore, the lightweight quantized weights ensure scalability and ease of deployment even in low-resource hospital environments. Finally, the paper concludes with an analysis of the broader impact of LLMs on healthcare and outlines future directions for LLMs in medical settings.

arxiv情報

著者 Mohammad Shoaib Ansari,Mohd Sohail Ali Khan,Shubham Revankar,Aditya Varma,Anil S. Mokhade
発行日 2025-05-06 10:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Lightweight Clinical Decision Support System using QLoRA-Fine-Tuned LLMs and Retrieval-Augmented Generation はコメントを受け付けていません

Enhancing Target-unspecific Tasks through a Features Matrix

要約

大規模なビジョン言語モデルの迅速な学習の最近の開発により、ターゲット固有のタスクのパフォーマンスが大幅に向上しました。
ただし、これらの迅速な最適化方法は、ターゲット非特異的または一般化可能なタスクに効果的に取り組むのに苦労しています。
これは、過剰適合トレーニングにより、モデルが一般的な知識がターゲット非特定のタスクを強く促進することを忘れさせるという事実に起因する可能性があります。
この問題を軽減するために、ターゲット非特定のタスクでこれらのモデルを強化するように設計された新しい機能マトリックス(FM)正規化アプローチを提案します。
私たちの方法は、一般的な知識を抽出して活用し、機能マトリックス(FM)を形作ります。
具体的には、FMは、深く細かい視点からの多様な入力のセマンティクスをキャプチャし、過剰適合のリスクを軽減する本質的な一般的な知識を維持します。
代表的な評価は、次のことを示しています。1)FMは既存のフレームワークと汎用的で柔軟なモジュールとして互換性があり、2)FMは、ターゲット非特定のタスクを強化し、最先端のパフォーマンスを達成する上でその有効性を大幅に示しています。

要約(オリジナル)

Recent developments in prompt learning of large vision-language models have significantly improved performance in target-specific tasks. However, these prompt optimizing methods often struggle to tackle the target-unspecific or generalizable tasks effectively. It may be attributed to the fact that overfitting training causes the model to forget its general knowledge having strong promotion on target-unspecific tasks. To alleviate this issue, we propose a novel Features Matrix (FM) regularization approach designed to enhance these models on target-unspecific tasks. Our method extracts and leverages general knowledge, shaping a Features Matrix (FM). Specifically, the FM captures the semantics of diverse inputs from a deep and fine perspective, preserving essential general knowledge, which mitigates the risk of overfitting. Representative evaluations demonstrate that: 1) the FM is compatible with existing frameworks as a generic and flexible module, and 2) the FM significantly showcases its effectiveness in enhancing target-unspecific tasks, achieving state-of-the-art performance.

arxiv情報

著者 Fangming Cui,Yonggang Zhang,Xuan Wang,Xinmei Tian,Jun Yu
発行日 2025-05-06 10:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Enhancing Target-unspecific Tasks through a Features Matrix はコメントを受け付けていません

MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks

要約

大規模な言語モデル(LLM)は、ヘルスケアのさまざまなアプリケーションに対して大きな約束を示しています。
ただし、高品質のドメイン固有のデータセットとベンチマークがないため、アラビア語の医療ドメインでの有効性は未開拓のままです。
この研究では、Medarabiqを紹介します。Medarabiqは、7つのアラビア語の医療タスクで構成される新しいベンチマークデータセットであり、複数の専門分野をカバーし、複数選択の質問、fill-in-the Blank、および患者ドクターの質問応答を含みます。
最初に、過去の健康診断と公開されているデータセットを使用してデータセットを構築しました。
次に、バイアス緩和を含むさまざまなLLM機能を評価するために、さまざまな変更を導入しました。
GPT-4O、Claude 3.5-Sonnet、およびGemini 1.5を含む5つの最先端のオープンソースと独自のLLMで広範な評価を実施しました。
私たちの調査結果は、ヘルスケアにおけるLLMの公正な展開とスケーラビリティを確保するために、異なる言語にまたがる新しい高品質のベンチマークを作成する必要性を強調しています。
このベンチマークを確立し、データセットをリリースすることにより、ヘルスケアでの生成AIを公平に使用するためのLLMSの多言語機能を評価および強化することを目的とした将来の研究の基盤を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated significant promise for various applications in healthcare. However, their efficacy in the Arabic medical domain remains unexplored due to the lack of high-quality domain-specific datasets and benchmarks. This study introduces MedArabiQ, a novel benchmark dataset consisting of seven Arabic medical tasks, covering multiple specialties and including multiple choice questions, fill-in-the-blank, and patient-doctor question answering. We first constructed the dataset using past medical exams and publicly available datasets. We then introduced different modifications to evaluate various LLM capabilities, including bias mitigation. We conducted an extensive evaluation with five state-of-the-art open-source and proprietary LLMs, including GPT-4o, Claude 3.5-Sonnet, and Gemini 1.5. Our findings highlight the need for the creation of new high-quality benchmarks that span different languages to ensure fair deployment and scalability of LLMs in healthcare. By establishing this benchmark and releasing the dataset, we provide a foundation for future research aimed at evaluating and enhancing the multilingual capabilities of LLMs for the equitable use of generative AI in healthcare.

arxiv情報

著者 Mouath Abu Daoud,Chaimae Abouzahir,Leen Kharouf,Walid Al-Eisawi,Nizar Habash,Farah E. Shamout
発行日 2025-05-06 11:07:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks はコメントを受け付けていません

Elevating Semantic Exploration: A Novel Approach Utilizing Distributed Repositories

要約

集中型および分散システムは、ICTインフラストラクチャを整理するための2つの主要なアプローチであり、それぞれに長所と短所があります。
集中型システムは、1つの場所にリソースを集中し、管理を容易にしますが、単一の障害ポイントを作成します。
一方、分散システムは、複数のノードにリソースを広め、より良いスケーラビリティと断層トレランスを提供しますが、より複雑な管理が必要です。
それらの選択は、アプリケーションのニーズ、スケーラビリティ、データの感度などの要因に依存します。
集中化されたシステムは、限られたスケーラビリティと集中制御を備えたアプリケーションに合わせていますが、分散システムは高可用性とパフォーマンスを必要とする大規模環境で優れています。
このホワイトペーパーでは、イタリア司法省向けに開発された分散ドキュメントリポジトリシステムを調査し、エッジリポジトリを使用してテキストデータとメタデータを分析し、セマンティック探査機能を強化します。

要約(オリジナル)

Centralized and distributed systems are two main approaches to organizing ICT infrastructure, each with its pros and cons. Centralized systems concentrate resources in one location, making management easier but creating single points of failure. Distributed systems, on the other hand, spread resources across multiple nodes, offering better scalability and fault tolerance, but requiring more complex management. The choice between them depends on factors like application needs, scalability, and data sensitivity. Centralized systems suit applications with limited scalability and centralized control, while distributed systems excel in large-scale environments requiring high availability and performance. This paper explores a distributed document repository system developed for the Italian Ministry of Justice, using edge repositories to analyze textual data and metadata, enhancing semantic exploration capabilities.

arxiv情報

著者 Valerio Bellandi
発行日 2025-05-06 11:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC | Elevating Semantic Exploration: A Novel Approach Utilizing Distributed Repositories はコメントを受け付けていません

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

要約

最近の研究は、大規模な言語モデル(LLM)が監視された微調整または補強学習を通じて強力な推論能力を達成することを示しています。
ただし、重要なアプローチであるプロセス報酬モデル(PRM)は、報酬のハッキングに苦しんでおり、最良の中間ステップを特定する際に信頼性が低くなります。
さらに、報酬モデリングの推論プロセスに注釈を付けたコストは高く、高品質のデータの大規模なコレクションが困難になります。
これに対処するために、階層報酬モデル(HRM)と呼ばれる新しい報酬モデルアプローチを提案します。これは、細粒レベルと粗粒レベルの両方で個人と連続の推論ステップの両方を評価します。
HRMは、特に欠陥のあるステップが後で自己反省によって修正された場合、マルチステップの推論コヒーレンスの評価に優れています。
トレーニングデータを生成するコストをさらに削減するために、階層ノード圧縮(HNC)と呼ばれる軽量で効果的なデータ増強戦略を導入します。これは、2つの連続した推論ステップをツリー構造内の1つにマージします。
HNCをMCTS生成の推論軌跡に適用することにより、HRMトレーニングデータの多様性と堅牢性を高め、最小限の計算オーバーヘッドで制御ノイズを導入します。
PRM800Kデータセットの経験的結果は、HRMがHNCとともにPRMよりも安定した信頼性の高い評価を提供することを示しています。
さらに、MATH500およびGSM8Kデータセットのクロスドメイン評価は、さまざまな推論タスクにわたってHRMの強力な一般化と堅牢性を示しています。

要約(オリジナル)

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM’s strong generalization and robustness across a variety of reasoning tasks.

arxiv情報

著者 Teng Wang,Zhangyi Jiang,Zhenqi He,Shenyang Tong,Wenhan Yang,Yanan Zheng,Zeyu Li,Zifan He,Hailei Gong
発行日 2025-05-06 11:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models はコメントを受け付けていません

LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment

要約

大規模な言語モデル(LLMS)がさまざまなドメインで例外的なパフォーマンスを実証するように、エッジデバイスにLLMを展開することが新しいトレンドとして浮上しています。
LLMSのサイズとメモリの要件を削減する量子化技術は、リソース制限エッジデバイスにLLMを展開するのに効果的です。
ただし、既存の1つのサイズのすべての量子化方法は、LLMSのメモリ要件を動的に調整できず、さまざまな計算リソースを使用してアプリケーションを実用的なエッジデバイスに制限することがよくあります。
この問題に取り組むために、層の重要性に基づいてLLMの適応量子化と動的展開のシステムであるレイヤー固有の適応量子化(LSAQ)を提案します。
具体的には、LSAQは、各レイヤーの入力と出力からトップKトークンセットを構築し、ジャッカーの類似性を計算することにより、LLMSの神経層の重要性を評価します。
レイヤーの重要性に基づいて、システムはエッジデバイスの計算リソースに従って、量子化戦略をリアルタイムで適応的に調整します。これは、より重要なレイヤーにより高い量子化精度を適用し、その逆も同様です。
{実験結果は、LSAQが、困惑とゼロショットのタスクの観点から、選択した量子化ベースラインを常に上回ることを示しています。
さらに、LLMの展開を容易にするために、さまざまな使用シナリオの適切な量子化スキームを考案できます。

要約(オリジナル)

As Large Language Models (LLMs) demonstrate exceptional performance across various domains, deploying LLMs on edge devices has emerged as a new trend. Quantization techniques, which reduce the size and memory requirements of LLMs, are effective for deploying LLMs on resource-limited edge devices. However, existing one-size-fits-all quantization methods often fail to dynamically adjust the memory requirements of LLMs, limiting their applications to practical edge devices with various computation resources. To tackle this issue, we propose Layer-Specific Adaptive Quantization (LSAQ), a system for adaptive quantization and dynamic deployment of LLMs based on layer importance. Specifically, LSAQ evaluates the importance of LLMs’ neural layers by constructing top-k token sets from the inputs and outputs of each layer and calculating their Jaccard similarity. Based on layer importance, our system adaptively adjusts quantization strategies in real time according to the computation resource of edge devices, which applies higher quantization precision to layers with higher importance, and vice versa. {Experimental results show that LSAQ consistently outperforms the selected quantization baselines in terms of perplexity and zero-shot tasks. Additionally, it can devise appropriate quantization schemes for different usage scenarios to facilitate the deployment of LLMs.

arxiv情報

著者 Binrui Zeng,Bin Ji,Xiaodong Liu,Jie Yu,Shasha Li,Jun Ma,Xiaopeng Li,Shangwen Wang,Xinran Hong,Yongtao Tang
発行日 2025-05-06 11:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment はコメントを受け付けていません

An Analysis of Hyper-Parameter Optimization Methods for Retrieval Augmented Generation

要約

特定のユースケースの最適な検索高等発電(RAG)構成を見つけることは、複雑で高価な場合があります。
この課題に動機付けられたRAGハイパーパラメーター最適化(HPO)のフレームワークは最近登場しましたが、それらの有効性は厳密にベンチマークされていません。
このギャップに対処するために、多様なドメインから5つのデータセットを超える5つのHPOアルゴリズムを含む包括的な研究を提示します。
私たちの研究では、2つの最適化された評価メトリックを備えた、これまでに考慮された最大のHPO検索スペースを探ります。
結果の分析により、RAG HPOは、貪欲または反復的なランダム検索で効率的に実行できること、およびすべてのデータセットのRAGパフォーマンスを大幅に向上させることが示されています。
貪欲なHPOアプローチの場合、最初にモデルを最適化することが、RAGパイプラインの順序に従って順次最適化する一般的な実践よりも好ましいことを示します。

要約(オリジナル)

Finding the optimal Retrieval-Augmented Generation (RAG) configuration for a given use case can be complex and expensive. Motivated by this challenge, frameworks for RAG hyper-parameter optimization (HPO) have recently emerged, yet their effectiveness has not been rigorously benchmarked. To address this gap, we present a comprehensive study involving 5 HPO algorithms over 5 datasets from diverse domains, including a new one collected for this work on real-world product documentation. Our study explores the largest HPO search space considered to date, with two optimized evaluation metrics. Analysis of the results shows that RAG HPO can be done efficiently, either greedily or with iterative random search, and that it significantly boosts RAG performance for all datasets. For greedy HPO approaches, we show that optimizing models first is preferable to the prevalent practice of optimizing sequentially according to the RAG pipeline order.

arxiv情報

著者 Matan Orbach,Ohad Eytan,Benjamin Sznajder,Ariel Gera,Odellia Boni,Yoav Kantor,Gal Bloch,Omri Levy,Hadas Abraham,Nitzan Barzilay,Eyal Shnarch,Michael E. Factor,Shila Ofek-Koifman,Paula Ta-Shma,Assaf Toledo
発行日 2025-05-06 11:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | An Analysis of Hyper-Parameter Optimization Methods for Retrieval Augmented Generation はコメントを受け付けていません

Uncertainty-Aware Large Language Models for Explainable Disease Diagnosis

要約

患者情報(兆候や症状など)と計算モデルを活用して、考えられる診断と推論を生成する説明可能な疾患診断は、明確な臨床的価値を提供します。
ただし、臨床ノートには、明確な症状の欠如など、明確な診断の証拠が不十分な場合、診断の不確実性が通常生じ、誤診や副次的な結果のリスクが高まります。
診断不確実性を明示的に特定して説明することは、信頼できる診断システムには不可欠ですが、引き続き推奨されていません。
このギャップを埋めるために、診断基準を持つオープンソースLLMSを微調整することによって作成された不確実性の大きな言語モデル(LLM)であるConfidxを紹介します。
タスクを正式にし、さまざまな程度の診断のあいまいさをキャプチャする豊富な注釈付きデータセットを組み立てました。
実際のデータセットでconfidxを評価することで、診断の不確実性を特定し、優れた診断パフォーマンスを達成し、診断と不確実性に関する信頼できる説明を生成することに優れていることが示されました。
私たちの知る限り、これは診断の不確実性の認識と説明に共同で対処した最初の研究であり、自動診断システムの信頼性を大幅に向上させます。

要約(オリジナル)

Explainable disease diagnosis, which leverages patient information (e.g., signs and symptoms) and computational models to generate probable diagnoses and reasonings, offers clear clinical values. However, when clinical notes encompass insufficient evidence for a definite diagnosis, such as the absence of definitive symptoms, diagnostic uncertainty usually arises, increasing the risk of misdiagnosis and adverse outcomes. Although explicitly identifying and explaining diagnostic uncertainties is essential for trustworthy diagnostic systems, it remains under-explored. To fill this gap, we introduce ConfiDx, an uncertainty-aware large language model (LLM) created by fine-tuning open-source LLMs with diagnostic criteria. We formalized the task and assembled richly annotated datasets that capture varying degrees of diagnostic ambiguity. Evaluating ConfiDx on real-world datasets demonstrated that it excelled in identifying diagnostic uncertainties, achieving superior diagnostic performance, and generating trustworthy explanations for diagnoses and uncertainties. To our knowledge, this is the first study to jointly address diagnostic uncertainty recognition and explanation, substantially enhancing the reliability of automatic diagnostic systems.

arxiv情報

著者 Shuang Zhou,Jiashuo Wang,Zidu Xu,Song Wang,David Brauer,Lindsay Welton,Jacob Cogan,Yuen-Hei Chung,Lei Tian,Zaifu Zhan,Yu Hou,Mingquan Lin,Genevieve B. Melton,Rui Zhang
発行日 2025-05-06 12:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Uncertainty-Aware Large Language Models for Explainable Disease Diagnosis はコメントを受け付けていません

Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models

要約

大規模な言語モデルの最近の進歩により、大規模な推論モデル(たとえば、Deepseek R1)から蒸留されたチェーンオブ思考(COT)の推論データを使用した監視された微調整(SFT)が、推論機能を非合理モデルに効果的に転送できることが実証されています。
ただし、このアプローチで微調整されたモデルは、教師モデルから「考え直し」問題を継承し、推論中に冗長および冗長な推論チェーンを生成します。
この課題に対処するために、\ textbf {l} ong- \ textbf {s} hort chain-of-textbf {mixture} \ textbf {s} upervised \ textbf {f} ine- \ textbf {t} uning(\ textbf {\ ls-mixture sft combine sft with combines with combine sft com
彼らの短いカウンターパートは、構造に保存された書き換えを通じて得られました。
私たちの実験は、直接SFTでトレーニングされたものと比較して、LSミックス型SFT法を使用してトレーニングされたモデルが、さまざまなベンチマークで2.3%の平均精度改善を達成し、モデルの応答長を約47.61 \%削減することを実証しています。
この作業は、教師モデルから継承された固有の過度の考え直しの問題を避けながら、監視された微調整を通じて、非合理的なモデルを推論能力に授与するアプローチを提供し、それによって微調整されたモデルで効率的な推論を可能にします。

要約(オリジナル)

Recent advances in large language models have demonstrated that Supervised Fine-Tuning (SFT) with Chain-of-Thought (CoT) reasoning data distilled from large reasoning models (e.g., DeepSeek R1) can effectively transfer reasoning capabilities to non-reasoning models. However, models fine-tuned with this approach inherit the ‘overthinking’ problem from teacher models, producing verbose and redundant reasoning chains during inference. To address this challenge, we propose \textbf{L}ong-\textbf{S}hort Chain-of-Thought \textbf{Mixture} \textbf{S}upervised \textbf{F}ine-\textbf{T}uning (\textbf{LS-Mixture SFT}), which combines long CoT reasoning dataset with their short counterparts obtained through structure-preserved rewriting. Our experiments demonstrate that models trained using the LS-Mixture SFT method, compared to those trained with direct SFT, achieved an average accuracy improvement of 2.3\% across various benchmarks while substantially reducing model response length by approximately 47.61\%. This work offers an approach to endow non-reasoning models with reasoning capabilities through supervised fine-tuning while avoiding the inherent overthinking problems inherited from teacher models, thereby enabling efficient reasoning in the fine-tuned models.

arxiv情報

著者 Bin Yu,Hang Yuan,Yuliang Wei,Bailing Wang,Weizhen Qi,Kai Chen
発行日 2025-05-06 12:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models はコメントを受け付けていません

Evaluation of LLMs on Long-tail Entity Linking in Historical Documents

要約

エンティティリンク(EL)は、自然言語処理(NLP)アプリケーションにおいて重要な役割を果たし、リファレンスナレッジベース(KB)の対応するエントリにリンクすることにより、エンティティの言及の乱用を可能にします。
彼らの深い文脈的理解能力のおかげで、LLMはELに取り組むための新しい視点を提供し、従来の方法よりも良い結果を約束します。
LLMSの印象的な一般化能力にもかかわらず、人気の低いリンクをリンクすることは、これらのエンティティがトレーニングデータと知識ベースで過小評価されることが多いため、依然として挑戦的です。
さらに、ロングテールエルタスクは研究されていない問題であり、限られた研究でLLMSを使用しています。
現在の作業では、シナリオをリンクするロングテールエンティティで、2つの一般的なLLMS、GPTとLLAMA3のパフォーマンスを評価します。
ドメイン固有の歴史的テキストからの文の手動注釈付きベンチマークであるMHERCL v0.1を使用して、LLMのパフォーマンスを、対応するエンティティとリンクのリンクリンクと関係抽出フレームワークであるRelikの識別とリンクのパフォーマンスを定量的に比較します。
私たちの予備的な実験は、LLMSがロングテールELで励みに勇気づけられることを明らかにしており、この技術がヘッドとロングテールELのギャップを埋める上で貴重な補助剤になる可能性があることを示しています。

要約(オリジナル)

Entity Linking (EL) plays a crucial role in Natural Language Processing (NLP) applications, enabling the disambiguation of entity mentions by linking them to their corresponding entries in a reference knowledge base (KB). Thanks to their deep contextual understanding capabilities, LLMs offer a new perspective to tackle EL, promising better results than traditional methods. Despite the impressive generalization capabilities of LLMs, linking less popular, long-tail entities remains challenging as these entities are often underrepresented in training data and knowledge bases. Furthermore, the long-tail EL task is an understudied problem, and limited studies address it with LLMs. In the present work, we assess the performance of two popular LLMs, GPT and LLama3, in a long-tail entity linking scenario. Using MHERCL v0.1, a manually annotated benchmark of sentences from domain-specific historical texts, we quantitatively compare the performance of LLMs in identifying and linking entities to their corresponding Wikidata entries against that of ReLiK, a state-of-the-art Entity Linking and Relation Extraction framework. Our preliminary experiments reveal that LLMs perform encouragingly well in long-tail EL, indicating that this technology can be a valuable adjunct in filling the gap between head and long-tail EL.

arxiv情報

著者 Marta Boscariol,Luana Bulla,Lia Draetta,Beatrice Fiumanò,Emanuele Lenzi,Leonardo Piano
発行日 2025-05-06 12:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluation of LLMs on Long-tail Entity Linking in Historical Documents はコメントを受け付けていません