Horizon Scans can be accelerated using novel information retrieval and artificial intelligence tools

要約

はじめに:Herizon Scanning in Healthcareは、タイムリーな採用に不可欠なイノベーションの初期シグナルを評価します。
現在のHorizo​​nスキャンは、特にニュースのような構造化されていないソースから、効率的な情報検索と分析に課題に直面し、革新的なツールの必要性を提示します。
方法論:この研究では、地平線スキャンを改善するために設計されたスキャナーおよびAIDOCのオープンソースのPythonベースのツールを導入します。
スキャナーは、ニュース記事の検索と処理を自動化し、重複排除や監視なしの関連ランキングなどの機能を提供します。
関連性に基づいてテキストデータを並べ替え、セマンティックな類似性のためにニューラルネットワークを採用し、その後、ヒューマンレビューのための関連する可能性のあるエントリに優先順位を付けることにより、AIを活用することにより、AIDOC AIDS AIDSろ過を行います。
結果:Horizo​​nスキャンからの12の内部データセットと4つの外部ベンチマークデータセットが使用されました。
スキャナーは、以前に手動労働に依存していたプロセスを自動化することにより、検索効率を改善しました。
AIDOCは仕事を節約する可能性を示し、95%のリコールで手動のレビューの取り組みを約62%削減しました。
ベンチマークデータとの比較分析は、AIDOCのパフォーマンスが既存の系統的レビュー自動化ツールに類似していることを示しましたが、パフォーマンスはデータセットの特性によって異なります。
ニュースデータセットの小規模なケーススタディは、ニュースデータセット全体で関連する記事をより迅速に検出するためのアクティブラーニングプロセス内で大規模な言語モデルをアンサムする可能性を示しています。
結論:検証は、スキャナーとAIDOCがデータの検索と優先順位付けを合理化することにより、地平線スキャン効率を高める可能性を示していることを示しています。
これらのツールは、方法論的な制限を緩和し、より広く、迅速な地平線スキャンを可能にする可能性があります。
これらのモデルを最適化し、大規模な言語モデルを統合する新しいワークフローと検証プロセスを設計するために、さらなる研究が提案されています。

要約(オリジナル)

Introduction: Horizon scanning in healthcare assesses early signals of innovation, crucial for timely adoption. Current horizon scanning faces challenges in efficient information retrieval and analysis, especially from unstructured sources like news, presenting a need for innovative tools. Methodology: The study introduces SCANAR and AIDOC, open-source Python-based tools designed to improve horizon scanning. SCANAR automates the retrieval and processing of news articles, offering functionalities such as de-duplication and unsupervised relevancy ranking. AIDOC aids filtration by leveraging AI to reorder textual data based on relevancy, employing neural networks for semantic similarity, and subsequently prioritizing likely relevant entries for human review. Results: Twelve internal datasets from horizon scans and four external benchmarking datasets were used. SCANAR improved retrieval efficiency by automating processes previously dependent on manual labour. AIDOC displayed work-saving potential, achieving around 62% reduction in manual review efforts at 95% recall. Comparative analysis with benchmarking data showed AIDOC’s performance was similar to existing systematic review automation tools, though performance varied depending on dataset characteristics. A smaller case-study on our news datasets shows the potential of ensembling large language models within the active-learning process for faster detection of relevant articles across news datasets. Conclusion: The validation indicates that SCANAR and AIDOC show potential to enhance horizon scanning efficiency by streamlining data retrieval and prioritisation. These tools may alleviate methodological limitations and allow broader, swifter horizon scans. Further studies are suggested to optimize these models and to design new workflows and validation processes that integrate large language models.

arxiv情報

著者 Lena Schmidt,Oshin Sharma,Chris Marshall,Sonia Garcia Gonzalez Moral
発行日 2025-04-02 11:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Horizon Scans can be accelerated using novel information retrieval and artificial intelligence tools はコメントを受け付けていません

Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish

要約

大規模な言語モデル(LLM)は、研究と社会全体でますます重要なツールになっています。
LLMは専門家や一般人によって世界中で定期的に使用されていますが、主に英語を話すユーザーを念頭に置いて開発され、英語やその他の広範な言語でうまく機能しますが、ルクセンブルギッシュなどのリソースの少ない言語は優先度が低いと見られています。
この注意の欠如は、利用可能な評価ツールとデータセットのスパース性にも反映されています。
この研究では、ルクセンブルク語の言語の評価ツールとして、言語習熟試験の実行可能性を調査します。
ChatGpt、Claude、Deepseek-R1などの大規模なモデルは通常、高いスコアを達成し、小さなモデルはパフォーマンスが弱いことを示しています。
また、このような言語試験のパフォーマンスを使用して、他のNLPタスクのパフォーマンスを予測できることもわかります。

要約(オリジナル)

Large Language Models (LLMs) have become an increasingly important tool in research and society at large. While LLMs are regularly used all over the world by experts and lay-people alike, they are predominantly developed with English-speaking users in mind, performing well in English and other wide-spread languages while less-resourced languages such as Luxembourgish are seen as a lower priority. This lack of attention is also reflected in the sparsity of available evaluation tools and datasets. In this study, we investigate the viability of language proficiency exams as such evaluation tools for the Luxembourgish language. We find that large models such as ChatGPT, Claude and DeepSeek-R1 typically achieve high scores, while smaller models show weak performances. We also find that the performances in such language exams can be used to predict performances in other NLP tasks.

arxiv情報

著者 Cedric Lothritz,Jordi Cabot
発行日 2025-04-02 12:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish はコメントを受け付けていません

Study of scaling laws in language families

要約

この記事では、言語家族内のスケーリング法則を調査し、6,000を超える言語からのデータを使用し、ZIPFのような分類グラフで観察される緊急パターンを分析します。
これらの分類の側面については、巨視的(家族による言語の数に基づく)と顕微鏡(家族の言語によるスピーカーの数に基づく)の両方を調べます。
特に注目に値するのは、アフロアジアとニロサハラの言語を除く、14の最大の現代言語家族の間で明確な分裂の発見です。
これらのファミリは、ZIPFグラフの大幅に異なる指数によって特徴付けられる3つの言語ファミリ四つ栽培に分布していることがわかりました。
この発見は、主要な言語家族の基礎となる構造と組織に光を当て、言語の多様性と分布の性質に関する興味深い洞察を明らかにします。

要約(オリジナル)

This article investigates scaling laws within language families using data from over six thousand languages and analyzing emergent patterns observed in Zipf-like classification graphs. Both macroscopic (based on number of languages by family) and microscopic (based on numbers of speakers by language on a family) aspects of these classifications are examined. Particularly noteworthy is the discovery of a distinct division among the fourteen largest contemporary language families, excluding Afro-Asiatic and Nilo-Saharan languages. These families are found to be distributed across three language family quadruplets, each characterized by significantly different exponents in the Zipf graphs. This finding sheds light on the underlying structure and organization of major language families, revealing intriguing insights into the nature of linguistic diversity and distribution.

arxiv情報

著者 Maelyson R. F. Santos,Marcelo A. F. Gomes
発行日 2025-04-02 12:28:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph | Study of scaling laws in language families はコメントを受け付けていません

ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs

要約

大規模な言語モデル(LLM)のトレーニング後の段階で適用されるルールベースの強化学習(RL)の最近の進歩により、数学や論理的推論などの構造化された推論タスクの能力が大幅に向上しました。
しかし、社会的推論におけるRLの有効性、特に他人の精神状態を推測する能力である心の理論(TOM)における有効性は、ほとんど未踏のままです。
この研究では、RLメソッドが小規模なLLM(0.5Bから7Bパラメーター)でもTOM推論能力を効果的にロック解除することを実証します。
多様なシナリオ全体で3200の質問を含む控えめなデータセットを使用して、RLトレーニングを受けた7Bモデルは、パラメーターが大幅に少ないにもかかわらず、GPT-4OやDeepSeek-V3などのモデルを上回るHI-TOMベンチマークで84.50 \%の精度を達成します。
小規模なモデル($ \ leq $ 3bパラメーター)は推論の崩壊に悩まされていますが、より大きなモデル(7bパラメーター)は、一貫した信念追跡を通じて安定した性能を維持します。
さらに、RLベースのモデルは、高次の分散型TOM問題、新しいテキストプレゼンテーション、以前に見えないデータセットへの堅牢な一般化を示しています。
これらの調査結果は、RLの社会的認知推論を強化する可能性を強調し、LLMSにおける構造化された問題解決と微妙な社会的推論の間のギャップを埋めることを強調しています。

要約(オリジナル)

Recent advancements in rule-based reinforcement learning (RL), applied during the post-training phase of large language models (LLMs), have significantly enhanced their capabilities in structured reasoning tasks such as mathematics and logical inference. However, the effectiveness of RL in social reasoning, particularly in Theory of Mind (ToM), the ability to infer others’ mental states, remains largely unexplored. In this study, we demonstrate that RL methods effectively unlock ToM reasoning capabilities even in small-scale LLMs (0.5B to 7B parameters). Using a modest dataset comprising 3200 questions across diverse scenarios, our RL-trained 7B model achieves 84.50\% accuracy on the Hi-ToM benchmark, surpassing models like GPT-4o and DeepSeek-v3 despite significantly fewer parameters. While smaller models ($\leq$3B parameters) suffer from reasoning collapse, larger models (7B parameters) maintain stable performance through consistent belief tracking. Additionally, our RL-based models demonstrate robust generalization to higher-order, out-of-distribution ToM problems, novel textual presentations, and previously unseen datasets. These findings highlight RL’s potential to enhance social cognitive reasoning, bridging the gap between structured problem-solving and nuanced social inference in LLMs.

arxiv情報

著者 Yi-Long Lu,Chunhui Zhang,Jiajun Song,Lifeng Fan,Wei Wang
発行日 2025-04-02 12:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs はコメントを受け付けていません

InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation

要約

コンテキスト内学習(ICL)は、大規模な言語モデル(LLM)にとって重要ですが、その有効性は、特に超長いコンテキストでは、有限のコンテキストウィンドウによって制約されます。
これを克服するために、Infiniteiclを紹介します。これは、LLMのコンテキストとパラメーターと、人間の認知システムの短期および長期のメモリを持つフレームワークを紹介し、一時的なコンテキストの知識を永続的なパラメーター更新に変換することに焦点を当てています。
このアプローチは、メモリの使用量を大幅に削減し、さまざまな入力長にわたって堅牢なパフォーマンスを維持し、理論的には、コンテキスト知識の誘発、選択、および統合の原則を通じて無限のコンテキスト統合を可能にします。
評価は、私たちの方法がコンテキストの長さを90%削減しながら、ファクトリコール、根拠のある推論、およびスキル獲得タスク全体でフルコンテキストプロンプトの103%の平均パフォーマンスを達成することを示しています。
複雑で現実世界のコンテキストで連続的なマルチターン変換を実行する場合(長さは最大2mトークン)、私たちのアプローチは、元のコンテキストの0.4%のみを使用しながら、フルコンテキストプロンプトを上回ります。
これらの調査結果は、従来のコンテキストウィンドウサイズの制限を破ることにより、LLMのスケーラビリティと効率を高めるInfiniteiclの可能性を強調しています。

要約(オリジナル)

In-context learning (ICL) is critical for large language models (LLMs), but its effectiveness is constrained by finite context windows, particularly in ultra-long contexts. To overcome this, we introduce InfiniteICL, a framework that parallels context and parameters in LLMs with short- and long-term memory in human cognitive systems, focusing on transforming temporary context knowledge into permanent parameter updates. This approach significantly reduces memory usage, maintains robust performance across varying input lengths, and theoretically enables infinite context integration through the principles of context knowledge elicitation, selection, and consolidation. Evaluations demonstrate that our method reduces context length by 90% while achieving 103% average performance of full-context prompting across fact recall, grounded reasoning, and skill acquisition tasks. When conducting sequential multi-turn transformations on complex, real-world contexts (with length up to 2M tokens), our approach surpasses full-context prompting while using only 0.4% of the original contexts. These findings highlight InfiniteICL’s potential to enhance the scalability and efficiency of LLMs by breaking the limitations of conventional context window sizes.

arxiv情報

著者 Bowen Cao,Deng Cai,Wai Lam
発行日 2025-04-02 13:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation はコメントを受け付けていません

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

要約

Financial LLMSは、金融タスクとドメイン固有のアプリケーションを前進させることを約束しています。
ただし、それらは希少なコーパス、弱いマルチモーダル機能、および狭い評価によって制限されているため、実際のアプリケーションにはそれほど適していません。
これに対処するために、\ TextIT {Open-Finllms}を紹介します。これは、テキスト、表形式、時系列、チャートデータ全体で多様なタスクを処理するように設計された最初のオープンソースマルチモーダルファイナンシャルLLMで、ゼロショット、少数のショット、微調整設定で優れています。
このスイートには、包括的な52億トークンコーパスで事前に訓練されたFinllamaが含まれています。
573kの財務指示で微調整されたFinllama-Instruct。
Finllavaは、強力なクロスモーダル推論のために1.43mマルチモーダルチューニングペアで強化されました。
14の金融タスク、30のデータセット、および4つのマルチモーダルタスクでゼロショット、少ないショット、および監視された微調整設定でオープンフィンルムを包括的に評価し、2つの新しいマルチモーダル評価データセットを導入します。
我々の結果は、オープンフィンルムズが、金融NLP、意思決定、マルチモーダルタスク全体でGPT-4などの一般的なLLMを上回り、実際の課題に取り組む可能性を強調することを示しています。
学界と業界全体の革新とコラボレーションを促進するために、すべてのコード(https://anonymous.4open.science/r/pixiu2-0d70/b1d7/license)およびOSi-Approvedライセンスの下でモデルをリリースします。

要約(オリジナル)

Financial LLMs hold promise for advancing financial tasks and domain-specific applications. However, they are limited by scarce corpora, weak multimodal capabilities, and narrow evaluations, making them less suited for real-world application. To address this, we introduce \textit{Open-FinLLMs}, the first open-source multimodal financial LLMs designed to handle diverse tasks across text, tabular, time-series, and chart data, excelling in zero-shot, few-shot, and fine-tuning settings. The suite includes FinLLaMA, pre-trained on a comprehensive 52-billion-token corpus; FinLLaMA-Instruct, fine-tuned with 573K financial instructions; and FinLLaVA, enhanced with 1.43M multimodal tuning pairs for strong cross-modal reasoning. We comprehensively evaluate Open-FinLLMs across 14 financial tasks, 30 datasets, and 4 multimodal tasks in zero-shot, few-shot, and supervised fine-tuning settings, introducing two new multimodal evaluation datasets. Our results show that Open-FinLLMs outperforms afvanced financial and general LLMs such as GPT-4, across financial NLP, decision-making, and multi-modal tasks, highlighting their potential to tackle real-world challenges. To foster innovation and collaboration across academia and industry, we release all codes (https://anonymous.4open.science/r/PIXIU2-0D70/B1D7/LICENSE) and models under OSI-approved licenses.

arxiv情報

著者 Jimin Huang,Mengxi Xiao,Dong Li,Zihao Jiang,Yuzhe Yang,Yifei Zhang,Lingfei Qian,Yan Wang,Xueqing Peng,Yang Ren,Ruoyu Xiang,Zhengyu Chen,Xiao Zhang,Yueru He,Weiguang Han,Shunian Chen,Lihang Shen,Daniel Kim,Yangyang Yu,Yupeng Cao,Zhiyang Deng,Haohang Li,Duanyu Feng,Yongfu Dai,VijayaSai Somasundaram,Peng Lu,Guojun Xiong,Zhiwei Liu,Zheheng Luo,Zhiyuan Yao,Ruey-Ling Weng,Meikang Qiu,Kaleb E Smith,Honghai Yu,Yanzhao Lai,Min Peng,Jian-Yun Nie,Jordan W. Suchow,Xiao-Yang Liu,Benyou Wang,Alejandro Lopez-Lira,Qianqian Xie,Sophia Ananiadou,Junichi Tsujii
発行日 2025-04-02 14:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, q-fin.CP | Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications はコメントを受け付けていません

OpenThaiGPT 1.6 and R1: Thai-Centric Open Source and Reasoning Large Language Models

要約

Openthaigpt 1.6およびR1(OTG-1.6およびOTG-R1)を提示します。これは、一般化と推論能力を強化するために、異なる方法論を通じて開発されたタイ中心の大手言語モデル(LLMS)を発表します。
OTG-1.6は、幅広い一般化のために融合するタスク算術モデルを採用し、OTG-R1は、高度な推論のために多段階の推論仮説(LIMO)と統合します。
ベンチマーク評価は、タイ語のタスク全体で優れたパフォーマンスを示し、大規模なオープンソースタイLLMに対して競争結果を達成します。
このペーパーでは、提案されたモデル、トレーニングプロセス、ベンチマーク、および結果について詳しく説明し、以前のモデルの改善を強調し、タイ中心のLLMの新しいパフォーマンス基準を確立します。

要約(オリジナル)

We present OpenThaiGPT 1.6 and R1 (OTG-1.6 and OTG-R1), Thai-centric Large Language Models (LLMs) developed through distinct methodologies to enhance generalization and reasoning capabilities. OTG-1.6 employs Task Arithmetic model merging for broad generalization, while OTG-R1 integrates multi-stage training with the Less-Is-More Reasoning Hypothesis (LIMO) for advanced reasoning. Benchmark evaluations demonstrate superior performance across Thai language tasks, achieving competitive results against larger-scale open-source Thai LLMs. This paper details the proposed models, training processes, benchmarks, and results, highlighting improvements over previous models and establishing new performance standards for Thai-centric LLMs.

arxiv情報

著者 Sumeth Yuenyong,Thodsaporn Chay-intr,Kobkrit Viriyayudhakorn
発行日 2025-04-02 14:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OpenThaiGPT 1.6 and R1: Thai-Centric Open Source and Reasoning Large Language Models はコメントを受け付けていません

Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training

要約

大規模な言語モデル(LLMS)は、トレーニング前のデータに極端な言語の不均衡にもかかわらず、顕著な多言語機能を示します。
この論文では、この現象の背後にある理由を詳しく調べ、トレーニング前のコーパスに焦点を当てています。
コンテキスト内の異なる言語を交互に行うコードスイッチングの存在が、多言語機能の鍵であることがわかります。
トレーニング前のコーパスでのコードスイッチングを調査するために分析を実施し、その存在を調べ、2つの象限内の4つのタイプに分類します。
次に、多言語のパフォーマンスへの影響を評価します。
これらのタイプのコードスイッチングデータは、割合では不均衡であり、言語転送の促進にさまざまな効果を示しています。
トレーニング前の言語アライメントのためのコードスイッチングの力をよりよく調査するために、合成コードスイッチングの戦略を調査します。
合成コードスイッチングデータを継続的に拡大し、ベンチマークと表現スペースの両方で顕著な改善を観察します。
広範な実験では、合成コードスイッチングデータを組み込むことで、より良い言語の整列が可能になり、さまざまな品質の事前トレーニングコーパスを備えた高、中、低リソースの言語によく一般化することが示されています。

要約(オリジナル)

Large language models (LLMs) exhibit remarkable multilingual capabilities despite the extreme language imbalance in the pre-training data. In this paper, we closely examine the reasons behind this phenomenon, focusing on the pre-training corpus. We find that the existence of code-switching, alternating between different languages within a context, is key to multilingual capabilities. We conduct an analysis to investigate code-switching in the pre-training corpus, examining its presence and categorizing it into four types within two quadrants. We then assess its impact on multilingual performance. These types of code-switching data are unbalanced in proportions and demonstrate different effects on facilitating language transfer. To better explore the power of code-switching for language alignment during pre-training, we investigate the strategy of synthetic code-switching. We continuously scale up the synthetic code-switching data and observe remarkable improvements in both benchmarks and representation space. Extensive experiments indicate that incorporating synthetic code-switching data enables better language alignment and generalizes well to high, medium, and low-resource languages with pre-training corpora of varying qualities.

arxiv情報

著者 Zhijun Wang,Jiahuan Li,Hao Zhou,Rongxiang Weng,Jingang Wang,Xin Huang,Xue Han,Junlan Feng,Chao Deng,Shujian Huang
発行日 2025-04-02 15:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training はコメントを受け付けていません

Efficient Constant-Space Multi-Vector Retrieval

要約

コルバートアーキテクチャによって例示された多面検索方法は、検索の潜在性と有効性の観点から強力なトレードオフを提供することにより、検索の実質的な約束を示しています。
ただし、入力コレクションのすべてのトークンに対して(潜在的に圧縮された)ベクトルを保存する必要があるため、ストレージの点で高コストで提供されます。
この問題を克服するために、必ずしも入力トークンに結び付けられていない固定数のベクトルにエンコードドキュメントを提案します。
ストレージコストを削減するだけでなく、ドキュメントの表現がディスク上の固定サイズになるという利点があり、OSページング管理の向上が可能になります。
代表的なマルチベクトルランキングモデルアーキテクチャであるColbert-V2アーキテクチャを使用してMSMARCOパッセージコーパスとBeirを使用した実験を通じて、元の有効性のほとんどを保持しながら、パッセージを固定数のベクターに効果的にエンコードできることがわかります。

要約(オリジナル)

Multi-vector retrieval methods, exemplified by the ColBERT architecture, have shown substantial promise for retrieval by providing strong trade-offs in terms of retrieval latency and effectiveness. However, they come at a high cost in terms of storage since a (potentially compressed) vector needs to be stored for every token in the input collection. To overcome this issue, we propose encoding documents to a fixed number of vectors, which are no longer necessarily tied to the input tokens. Beyond reducing the storage costs, our approach has the advantage that document representations become of a fixed size on disk, allowing for better OS paging management. Through experiments using the MSMARCO passage corpus and BEIR with the ColBERT-v2 architecture, a representative multi-vector ranking model architecture, we find that passages can be effectively encoded into a fixed number of vectors while retaining most of the original effectiveness.

arxiv情報

著者 Sean MacAvaney,Antonio Mallia,Nicola Tonellotto
発行日 2025-04-02 15:22:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Efficient Constant-Space Multi-Vector Retrieval はコメントを受け付けていません

LARGE: Legal Retrieval Augmented Generation Evaluation Tool

要約

最近、大規模な言語モデル(LLMS)の能力を高めるための検索上位生成(RAG)システムを構築することが一般的な慣行となっています。
特に法的領域では、以前の司法決定は、(取得した)以前の文書に基づいて決定を下すことの重要性を強調する凝視決定の教義の下で重要な役割を果たします。
ただし、RAGシステムの全体的なパフォーマンスは、多くのコンポーネントに依存します。(1)検索コーパス、(2)検索アルゴリズム、(3)再ランカー、(4)LLMバックボーン、および(5)評価指標に依存します。
ここでは、法的領域に焦点を当てたRAGシステムの全体的な評価のためのオープンソースツールであるLrageを提案します。
LrageはGUIおよびCLIインターフェイスを提供して、シームレスな実験を促進し、前述の5つのコンポーネントの変化が全体的な精度にどのように影響するかを調査します。
上記の5つのコンポーネントを変化させるときに全体的な精度がどのように変化するかを示すことにより、韓国語(KBL)、英語(LegalBench)、および中国(Lawbench)を含む多言語の合法的なベンチを使用してLrageを検証しました。
ソースコードは、https://github.com/hoorangyee/lrageで入手できます。

要約(オリジナル)

Recently, building retrieval-augmented generation (RAG) systems to enhance the capability of large language models (LLMs) has become a common practice. Especially in the legal domain, previous judicial decisions play a significant role under the doctrine of stare decisis which emphasizes the importance of making decisions based on (retrieved) prior documents. However, the overall performance of RAG system depends on many components: (1) retrieval corpora, (2) retrieval algorithms, (3) rerankers, (4) LLM backbones, and (5) evaluation metrics. Here we propose LRAGE, an open-source tool for holistic evaluation of RAG systems focusing on the legal domain. LRAGE provides GUI and CLI interfaces to facilitate seamless experiments and investigate how changes in the aforementioned five components affect the overall accuracy. We validated LRAGE using multilingual legal benches including Korean (KBL), English (LegalBench), and Chinese (LawBench) by demonstrating how the overall accuracy changes when varying the five components mentioned above. The source code is available at https://github.com/hoorangyee/LRAGE.

arxiv情報

著者 Minhu Park,Hongseok Oh,Eunkyung Choi,Wonseok Hwang
発行日 2025-04-02 15:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LARGE: Legal Retrieval Augmented Generation Evaluation Tool はコメントを受け付けていません