SwarmThinkers: Learning Physically Consistent Atomic KMC Transitions at Scale

要約

科学的シミュレーションシステムは、物理的に一貫性があり、設計によって解釈可能であり、レジーム全体でスケーラブルである可能性がありますか?
何十年もの進歩にもかかわらず、この三連はとらえどころのないままです。
速度論的モンテカルロのような古典的な方法は、熱力学的精度を確保しますが、スケーリングが低下します。
学習ベースの方法は効率を提供しますが、多くの場合、物理的な一貫性と解釈可能性を犠牲にします。
物理的に接地された群れインテリジェンスシステムとしてアトミックスケールシミュレーションを再構築する強化学習フレームワークであるSwarmHinkersを提示します。
各拡散粒子は、熱力学的制約の下で訓練された共有ポリシーネットワークを介して遷移を選択するローカル意思決定エージェントとしてモデル化されます。
再重み付けメカニズムは、学んだ好みと移行率を融合し、解釈可能な段階的な意思決定を可能にしながら統計的忠実度を維持します。
トレーニングは、集中訓練の分散型解実行パラダイムに従い、再訓練なしでシステムのサイズ、濃度、および温度にわたってポリシーを一般化できるようにします。
放射線誘発Fe-Cu合金の沈殿をシミュレートするベンチマークでは、SwarmThinkersは、以前はSuperComputerのOpenKMCを介してのみ達成できた、単一のA100 GPUで本格的で物理的に一貫したシミュレーションを実現する最初のシステムです。
485倍低いメモリ使用量を備えた最大4963倍(平均で3185倍)の高速計算を提供します。
パッシブサンプラーではなく意思決定者として粒子を扱うことにより、スワームシンカーは、科学的シミュレーションのパラダイムシフトを示します。これは、エージェント駆動のインテリジェンスを通じて物理的な一貫性、解釈可能性、およびスケーラビリティを統一します。

要約(オリジナル)

Can a scientific simulation system be physically consistent, interpretable by design, and scalable across regimes–all at once? Despite decades of progress, this trifecta remains elusive. Classical methods like Kinetic Monte Carlo ensure thermodynamic accuracy but scale poorly; learning-based methods offer efficiency but often sacrifice physical consistency and interpretability. We present SwarmThinkers, a reinforcement learning framework that recasts atomic-scale simulation as a physically grounded swarm intelligence system. Each diffusing particle is modeled as a local decision-making agent that selects transitions via a shared policy network trained under thermodynamic constraints. A reweighting mechanism fuses learned preferences with transition rates, preserving statistical fidelity while enabling interpretable, step-wise decision making. Training follows a centralized-training, decentralized-execution paradigm, allowing the policy to generalize across system sizes, concentrations, and temperatures without retraining. On a benchmark simulating radiation-induced Fe-Cu alloy precipitation, SwarmThinkers is the first system to achieve full-scale, physically consistent simulation on a single A100 GPU, previously attainable only via OpenKMC on a supercomputer. It delivers up to 4963x (3185x on average) faster computation with 485x lower memory usage. By treating particles as decision-makers, not passive samplers, SwarmThinkers marks a paradigm shift in scientific simulation–one that unifies physical consistency, interpretability, and scalability through agent-driven intelligence.

arxiv情報

著者 Qi Li,Kun Li,Haozhi Han,Honghui Shang,Xinfu He,Yunquan Zhang,Hong An,Ting Cao,Mao Yang
発行日 2025-05-26 15:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SwarmThinkers: Learning Physically Consistent Atomic KMC Transitions at Scale はコメントを受け付けていません

MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning

要約

複雑な情報を求めるタスクにおける固有のあいまいさと推論の課題に対処する検索された生成(RAG)のマルチエージェントフレームワークであるMA-RAGを提示します。
エンドツーエンドの微調整または分離コンポーネントの強化に依存する従来のRAGメソッドとは異なり、MA-RAGは、Planner、Step Definer、Extractor、およびQAエージェントの特殊なAIエージェントの共同セットを調整し、RAGパイプラインの各段階をタスクアウェア推論とタックルします。
あいまいさは、検索された文書におけるスパースまたは間接的な証拠、または複数のソースに散在する情報を統合する必要性から、除外されていないクエリ、まばらまたは間接的な証拠から生じる可能性があります。
MA-RAGは、クエリの分解、エビデンス抽出、回答統合など、問題をサブタスクに分解し、考え方の促しを装備した専用エージェントに派遣することにより、これらの課題を軽減します。
これらのエージェントは、中間推論を伝え、検索および合成プロセスを徐々に改良します。
私たちの設計により、モデルの微調整なしに情報フローを細かく制御できます。
重要なことに、エージェントはオンデマンドで呼び出され、不必要な計算を回避する動的で効率的なワークフローを可能にします。
このモジュール式で推論駆動型アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を​​提供できます。
マルチホップと曖昧なQAベンチマークの実験は、MA-RAGが最先端のトレーニングのないベースラインを上回り、微調整されたシステムを微調整したことを示しており、RAGの共同エージェントベースの推論の有効性を検証します。

要約(オリジナル)

We present MA-RAG, a Multi-Agent framework for Retrieval-Augmented Generation (RAG) that addresses the inherent ambiguities and reasoning challenges in complex information-seeking tasks. Unlike conventional RAG methods that rely on either end-to-end fine-tuning or isolated component enhancements, MA-RAG orchestrates a collaborative set of specialized AI agents: Planner, Step Definer, Extractor, and QA Agents, to tackle each stage of the RAG pipeline with task-aware reasoning. Ambiguities may arise from underspecified queries, sparse or indirect evidence in retrieved documents, or the need to integrate information scattered across multiple sources. MA-RAG mitigates these challenges by decomposing the problem into subtasks, such as query disambiguation, evidence extraction, and answer synthesis, and dispatching them to dedicated agents equipped with chain-of-thought prompting. These agents communicate intermediate reasoning and progressively refine the retrieval and synthesis process. Our design allows fine-grained control over information flow without any model fine-tuning. Crucially, agents are invoked on demand, enabling a dynamic and efficient workflow that avoids unnecessary computation. This modular and reasoning-driven architecture enables MA-RAG to deliver robust, interpretable results. Experiments on multi-hop and ambiguous QA benchmarks demonstrate that MA-RAG outperforms state-of-the-art training-free baselines and rivals fine-tuned systems, validating the effectiveness of collaborative agent-based reasoning in RAG.

arxiv情報

著者 Thang Nguyen,Peter Chin,Yu-Wing Tai
発行日 2025-05-26 15:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning はコメントを受け付けていません

Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities

要約

大規模な言語モデル(LLMS)は、自然言語の理解と生成における優れた能力のため、質問回答(QA)タスクの顕著なパフォーマンスを実証しています。
ただし、LLMベースのQAは、推論能力の低さ、時代遅れの知識、幻覚のために、複雑なQAタスクと闘っています。
最近のいくつかの研究は、上記の課題に対処するために、QAのLLMSと知識グラフ(KG)を統合しています。
この調査では、QAのカテゴリとLLMSと統合する際のKGの役割に従って、QAのLLMとKGSを合成する方法論を分類する新しい構造化された分類法を提案します。
QAのLLMSとKGSの合成における最先端の進歩を体系的に調査し、これらのアプローチを強度、制限、KG要件の観点から比較および分析します。
次に、アプローチをQAに合わせて、これらのアプローチが異なる複雑なQAの主要な課題にどのように対処するかを議論します。
最後に、進歩、評価のメトリック、ベンチマークデータセットを要約し、own open課題と機会を強調します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance on question-answering (QA) tasks because of their superior capabilities in natural language understanding and generation. However, LLM-based QA struggles with complex QA tasks due to poor reasoning capacity, outdated knowledge, and hallucinations. Several recent works synthesize LLMs and knowledge graphs (KGs) for QA to address the above challenges. In this survey, we propose a new structured taxonomy that categorizes the methodology of synthesizing LLMs and KGs for QA according to the categories of QA and the KG’s role when integrating with LLMs. We systematically survey state-of-the-art advances in synthesizing LLMs and KGs for QA and compare and analyze these approaches in terms of strength, limitations, and KG requirements. We then align the approaches with QA and discuss how these approaches address the main challenges of different complex QA. Finally, we summarize the advancements, evaluation metrics, and benchmark datasets and highlight open challenges and opportunities.

arxiv情報

著者 Chuangtao Ma,Yongrui Chen,Tianxing Wu,Arijit Khan,Haofen Wang
発行日 2025-05-26 15:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities はコメントを受け付けていません

Preference-Based Gradient Estimation for ML-Guided Approximate Combinatorial Optimization

要約

組み合わせの最適化(CO)の問題は、医学、物流、製造などの幅広いドメインにわたって発生します。
多くの場合、正確なソリューションは計算的に実行不可能ですが、多くの実用的なアプリケーションでは、特定の時間予算内で高品質のソリューションが必要です。
これに対処するために、COの既存の非学習近似アルゴリズムを強化する学習ベースのアプローチを提案します。具体的には、これらの近似アルゴリズムをパラメーター化し、グラフニューラルネットワーク(GNN)をトレーニングして、最適に近いソリューションを生成するパラメーター値を予測します。
私たちの方法は、近似アルゴリズムをブラックボックスとして扱う新しいグラデーション推定スキームを使用して、自己補助的な方法でエンドツーエンドの訓練を受けています。
このアプローチは、学習の強みと従来のアルゴリズムを組み合わせています。GNNは、データから学習してアルゴリズムをより良いソリューションに導く一方で、近似アルゴリズムは実現可能性を保証します。
2つのよく知られている組み合わせ最適化の問題、つまり巡回セールスマンの問題(TSP)とKカットの最小問題に関する方法を検証します。
我々の結果は、提案されたアプローチが最先端の学習COソルバーと競争力があることを示しています。

要約(オリジナル)

Combinatorial optimization (CO) problems arise across a broad spectrum of domains, including medicine, logistics, and manufacturing. While exact solutions are often computationally infeasible, many practical applications require high-quality solutions within a given time budget. To address this, we propose a learning-based approach that enhances existing non-learned approximation algorithms for CO. Specifically, we parameterize these approximation algorithms and train graph neural networks (GNNs) to predict parameter values that yield near-optimal solutions. Our method is trained end-to-end in a self-supervised fashion, using a novel gradient estimation scheme that treats the approximation algorithm as a black box. This approach combines the strengths of learning and traditional algorithms: the GNN learns from data to guide the algorithm toward better solutions, while the approximation algorithm ensures feasibility. We validate our method on two well-known combinatorial optimization problems: the travelling salesman problem (TSP) and the minimum k-cut problem. Our results demonstrate that the proposed approach is competitive with state-of-the-art learned CO solvers.

arxiv情報

著者 Arman Mielke,Uwe Bauknecht,Thilo Strauss,Mathias Niepert
発行日 2025-05-26 15:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Preference-Based Gradient Estimation for ML-Guided Approximate Combinatorial Optimization はコメントを受け付けていません

PINN-MEP: Continuous Neural Representations for Minimum-Energy Path Discovery in Molecular Systems

要約

物理システムにおける立体構造遷移を特徴付けることは、計算科学の根本的な課題のままです。
分子動力学(MD)やMCMCなどの従来のサンプリング方法は、分子系の高次元的性質と、安定した状態間の移行の高エネルギー障壁と闘うことがよくあります。
これらの遷移はシミュレーションタイムスケールではまれなイベントですが、多くの場合、最も生物学的に重要なプロセスを表しています。たとえば、イオンチャネルタンパク質の閉じた状態からオープン状態への立体構造変化は、細胞イオンの流れを制御し、神経シグナル伝達に重要です。
実際のシステムでのこのような遷移には、ミリ秒から数秒かかる場合がありますが、1回でも観察するには数か月または数年の継続的なシミュレーションが必要になる場合があります。
トランジションパスの生成を、最小エネルギーパス(MEP)生成のストリングメソッドに触発された物理学に基づいたニューラルネットワーク(PINN)を通じて解決される連続最適化問題として再forulululululululululuryされる方法を提示します。
遷移経路を暗黙の神経関数として表現し、微分可能な分子動力学力場で自動分化を活用することにより、この方法により、高価なパスサンプリングを必要とせずに物理的に現実的な遷移経路を効率的に発見することができます。
8,300を超える原子を備えた明示的に水和されたウシ膵臓トリプシン阻害剤(BPTI)システムを含む、2つのタンパク質に対する方法の有効性を実証します。

要約(オリジナル)

Characterizing conformational transitions in physical systems remains a fundamental challenge in the computational sciences. Traditional sampling methods like molecular dynamics (MD) or MCMC often struggle with the high-dimensional nature of molecular systems and the high energy barriers of transitions between stable states. While these transitions are rare events in simulation timescales, they often represent the most biologically significant processes – for example, the conformational change of an ion channel protein from its closed to open state, which controls cellular ion flow and is crucial for neural signaling. Such transitions in real systems may take milliseconds to seconds but could require months or years of continuous simulation to observe even once. We present a method that reformulates transition path generation as a continuous optimization problem solved through physics-informed neural networks (PINNs) inspired by string methods for minimum-energy path (MEP) generation. By representing transition paths as implicit neural functions and leveraging automatic differentiation with differentiable molecular dynamics force fields, our method enables the efficient discovery of physically realistic transition pathways without requiring expensive path sampling. We demonstrate our method’s effectiveness on two proteins, including an explicitly hydrated bovine pancreatic trypsin inhibitor (BPTI) system with over 8,300 atoms.

arxiv情報

著者 Magnus Petersen,Roberto Covino
発行日 2025-05-26 15:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.chem-ph, physics.comp-ph | PINN-MEP: Continuous Neural Representations for Minimum-Energy Path Discovery in Molecular Systems はコメントを受け付けていません

A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment

要約

このペーパーでは、3枝の政府システムに触発された、大規模な言語モデル(LLMS)の倫理的整合のためのチェックとバランスのフレームワークを紹介します。
それは、3つの独立しているが相互作用するコンポーネントを実装します。LLMSは、知識生成の行政機関としてのLLMS、倫理的ガードレールを確立する立法部門としての潜水、および文脈的解釈の司法支部としてのERIを実装しています。
構造的分離を超えて、基本的な課題に対処します。行動を形成するために感情を調節します。
感情的な反応を管理することが有害な行動を妨げる心理理論から描画すると、感情を言語行動にマッピングする自己監視学習パイプラインを開発し、感情的条件付けを通じて正確な行動変調を可能にします。
このアプローチを敵対的なテストと統合することにより、私たちのフレームワークは、知識の生成、倫理的監視、文脈的解釈を通じて独立を維持しながら、DikeとERISが倫理的結果に言語的行動をどのように指示するかを示しています。

要約(オリジナル)

This paper introduces a checks-and-balances framework for ethical alignment of Large Language Models (LLMs), inspired by three-branch governmental systems. It implements three independent yet interacting components: LLMs as the executive branch for knowledge generation, DIKE as the legislative branch establishing ethical guardrails, and ERIS as the judicial branch for contextual interpretation. Beyond structural separation, we address a fundamental challenge: regulating emotion to shape behaviors. Drawing from psychological theories where managing emotional responses prevents harmful behaviors, we develop a self-supervised learning pipeline that maps emotions to linguistic behaviors, enabling precise behavioral modulation through emotional conditioning. By integrating this approach with adversarial testing, our framework demonstrates how DIKE and ERIS direct linguistic behaviors toward ethical outcomes while preserving independence throughout knowledge generation, ethical oversight, and contextual interpretation.

arxiv情報

著者 Edward Y. Chang
発行日 2025-05-26 15:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, F.2.2 | A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment はコメントを受け付けていません

Language-Agnostic Suicidal Risk Detection Using Large Language Models

要約

青少年の自殺リスク検出は重大な課題ですが、既存の方法は言語固有のモデルに依存しており、スケーラビリティと一般化を制限しています。
この研究では、大規模な言語モデル(LLM)を使用した自殺リスク評価のための新しい言語と存在の枠組みを紹介します。
ASRモデルを使用して音声から中国の転写産物を生成し、これらの転写産物から自殺リスク関連の特徴を抽出するために、プロンプトベースのクエリでLLMを使用します。
抽出された機能は、中国語と英語の両方で保持されており、言語間分析を可能にし、対応する前提条件モデルを独立して微調整するために使用されます。
実験結果は、私たちの方法がASRの結果を備えた直接微調整または中国の自殺リスク関連の特徴のみで訓練されたモデルに匹敵するパフォーマンスを達成し、言語の制約を克服し、自殺リスク評価の堅牢性を改善する可能性を示していることを示しています。

要約(オリジナル)

Suicidal risk detection in adolescents is a critical challenge, yet existing methods rely on language-specific models, limiting scalability and generalization. This study introduces a novel language-agnostic framework for suicidal risk assessment with large language models (LLMs). We generate Chinese transcripts from speech using an ASR model and then employ LLMs with prompt-based queries to extract suicidal risk-related features from these transcripts. The extracted features are retained in both Chinese and English to enable cross-linguistic analysis and then used to fine-tune corresponding pretrained language models independently. Experimental results show that our method achieves performance comparable to direct fine-tuning with ASR results or to models trained solely on Chinese suicidal risk-related features, demonstrating its potential to overcome language constraints and improve the robustness of suicidal risk assessment.

arxiv情報

著者 June-Woo Kim,Wonkyo Oh,Haram Yoon,Sung-Hoon Yoon,Dae-Jin Kim,Dong-Ho Lee,Sang-Yeol Lee,Chan-Mo Yang
発行日 2025-05-26 15:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language-Agnostic Suicidal Risk Detection Using Large Language Models はコメントを受け付けていません

Proxy-Free GFlowNet

要約

生成フローネットワーク(Gflownets)は、構成オブジェクト上の分布をモデル化することにより、多様な高報酬構造をサンプリングするように設計された有望なクラスの生成モデルです。
多くの現実世界のアプリケーションでは、そのようなオブジェクトの報酬関数を取得することは高価で、時間がかかる、または人間の入力が必要であり、履歴データセットからGflownetsをトレーニングする必要があります。
ほとんどの既存の方法は、モデルベースのアプローチを採用しており、データセットからプロキシモデルを学習して報酬機能を近似します。
ただし、この戦略は、学習ポリシーの品質をプロキシの正確性に本質的に結び付け、トレーニングプロセスに追加の複雑さと不確実性を導入します。
これらの制限を克服するために、\ textbf {traujectory-distilled gflownet(td-gfn)}を提案します。
私たちの方法は、関連する指示された非環式グラフ(DAG)の異なるエッジが効果的な政策学習に不平等に貢献するという重要な観察によって動機付けられています。
TD-GFNは逆補強学習学習オフラインデータセットからのエッジレベルの報酬を推定するために学習を行い、それを使用してDAGを巧みに剪定し、トレーニング中に後方軌道サンプリングを導きます。
このアプローチは、モデルフィッティングの複雑さを減らしながら、高報酬領域に向けてポリシーを指示します。
複数のタスクにわたる経験的結果は、TD-GFNが効率的かつ確実に訓練し、収束速度とサンプル品質の既存のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Generative Flow Networks (GFlowNets) are a promising class of generative models designed to sample diverse, high-reward structures by modeling distributions over compositional objects. In many real-world applications, obtaining the reward function for such objects is expensive, time-consuming, or requires human input, making it necessary to train GFlowNets from historical datasets. Most existing methods adopt a model-based approach, learning a proxy model from the dataset to approximate the reward function. However, this strategy inherently ties the quality of the learned policy to the accuracy of the proxy, introducing additional complexity and uncertainty into the training process. To overcome these limitations, we propose \textbf{Trajectory-Distilled GFlowNet (TD-GFN)}, a \emph{proxy-free} training framework that eliminates the need for out-of-dataset reward queries. Our method is motivated by the key observation that different edges in the associated directed acyclic graph (DAG) contribute unequally to effective policy learning. TD-GFN leverages inverse reinforcement learning to estimate edge-level rewards from the offline dataset, which are then used to ingeniously prune the DAG and guide backward trajectory sampling during training. This approach directs the policy toward high-reward regions while reducing the complexity of model fitting. Empirical results across multiple tasks show that TD-GFN trains both efficiently and reliably, significantly outperforming existing baselines in convergence speed and sample quality.

arxiv情報

著者 Ruishuo Chen,Xun Wang,Rui Hu,Zhuoran Li,Longbo Huang
発行日 2025-05-26 15:12:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Proxy-Free GFlowNet はコメントを受け付けていません

ResSVD: Residual Compensated SVD for Large Language Model Compression

要約

大規模な言語モデル(LLMS)は、幅広い下流の自然言語処理タスクで印象的な能力を実証しています。
それにもかかわらず、彼らのかなりのサイズとメモリの要求は、実用的な展開を妨げ、効率的な圧縮戦略を開発することの重要性を強調しています。
特異値分解(SVD)は、マトリックスを直交成分に分解し、効率的な低ランク近似を可能にします。
これは、重量マトリックスが著しい冗長性を示すことが多いLLM圧縮に特に適しています。
ただし、現在のSVDベースの方法は、切り捨てから残留マトリックスを無視しているため、重大な切り捨て喪失をもたらします。
さらに、モデルのすべての層を圧縮すると、激しい性能劣化が発生します。
これらの制限を克服するために、新しいトレーニング後のSVDベースのLLM圧縮法であるRESSVDを提案します。
具体的には、切り捨てプロセス中に生成された残留マトリックスを活用して、切り捨ての損失を減らします。
さらに、固定された全体的な圧縮率の下で、モデルの最後の数層を選択的に圧縮します。これにより、エラーの伝播が軽減され、圧縮モデルのパフォーマンスが大幅に向上します。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive capabilities in a wide range of downstream natural language processing tasks. Nevertheless, their considerable sizes and memory demands hinder practical deployment, underscoring the importance of developing efficient compression strategies. Singular value decomposition (SVD) decomposes a matrix into orthogonal components, enabling efficient low-rank approximation. This is particularly suitable for LLM compression, where weight matrices often exhibit significant redundancy. However, current SVD-based methods neglect the residual matrix from truncation, resulting in significant truncation loss. Additionally, compressing all layers of the model results in severe performance degradation. To overcome these limitations, we propose ResSVD, a new post-training SVD-based LLM compression method. Specifically, we leverage the residual matrix generated during the truncation process to reduce truncation loss. Moreover, under a fixed overall compression ratio, we selectively compress the last few layers of the model, which mitigates error propagation and significantly improves the performance of compressed models.Comprehensive evaluations of ResSVD on diverse LLM families and multiple benchmark datasets indicate that ResSVD consistently achieves superior performance over existing counterpart methods, demonstrating its practical effectiveness.

arxiv情報

著者 Haolei Bai,Siyong Jian,Tuo Liang,Yu Yin,Huan Wang
発行日 2025-05-26 15:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ResSVD: Residual Compensated SVD for Large Language Model Compression はコメントを受け付けていません

Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi’s Zibaldone

要約

世界のテキスト遺産のデジタル化の増加は、コンピューターサイエンスと文学研究の両方に大きな課題をもたらします。
全体として、正書法やスペルのバリエーション、断片的な構造、デジタル化エラーなど、歴史的テキストの課題に適応できる計算技術が緊急に必要です。
大規模な言語モデル(LLMS)の台頭は、自然言語処理に革命をもたらし、履歴文書に関する名前付きエンティティ認識(NER)の有望なアプリケーションを示唆しています。
これにもかかわらず、イタリアのテキストについては徹底的な評価は提案されていません。
この研究は、19世紀の学術ノートのコーパス、つまりGiacomo Leopardiのジバルドン(1898)のコーパスに基づいて、エンティティ抽出のための新しい挑戦的なデータセットを提案することにより、ギャップを埋めようとします。
このデータセットは、ドメイン固有のBERTベースのモデルとllama3.1などの最先端のLLMの両方で再現可能な実験を実行するために使用されました。
結果は、命令チューニングされたモデルが歴史的なヒューマニックなテキストを処理する複数の困難に遭遇し、微調整されたNERモデルは、書誌参照などの挑戦的なエンティティタイプでも、より堅牢なパフォーマンスを提供することを示しています。

要約(オリジナル)

The increased digitization of world’s textual heritage poses significant challenges for both computer science and literary studies. Overall, there is an urgent need of computational techniques able to adapt to the challenges of historical texts, such as orthographic and spelling variations, fragmentary structure and digitization errors. The rise of large language models (LLMs) has revolutionized natural language processing, suggesting promising applications for Named Entity Recognition (NER) on historical documents. In spite of this, no thorough evaluation has been proposed for Italian texts. This research tries to fill the gap by proposing a new challenging dataset for entity extraction based on a corpus of 19th century scholarly notes, i.e. Giacomo Leopardi’s Zibaldone (1898), containing 2,899 references to people, locations and literary works. This dataset was used to carry out reproducible experiments with both domain-specific BERT-based models and state-of-the-art LLMs such as LLaMa3.1. Results show that instruction-tuned models encounter multiple difficulties handling historical humanistic texts, while fine-tuned NER models offer more robust performance even with challenging entity types such as bibliographic references.

arxiv情報

著者 Cristian Santini,Laura Melosi,Emanuele Frontoni
発行日 2025-05-26 15:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi’s Zibaldone はコメントを受け付けていません