Towards Lighter and Robust Evaluation for Retrieval Augmented Generation

要約

大規模な言語モデルは、生成的な観点からより多くのNLPタスクを表示するように促しています。
同時に、主にRAGフレームワークを介して情報にアクセスする新しい方法を提供します。
自己回帰モデルには顕著な改善がありましたが、生成された答えの幻覚を克服することは継続的な問題のままです。
標準ソリューションは、GPT4などの商用LLMを使用して、これらのアルゴリズムを評価することです。
ただし、そのようなフレームワークは高価であり、あまり透明ではありません。
したがって、RAG幻覚を評価するためのオープンウェイトモデルの関心を示す研究を提案します。
小さく、量子化されたLLMSを使用して軽量アプローチを開発し、その正しさと忠実さに関して生成された答えに連続的なスコアを提供するアクセスしやすく解釈可能なメトリックを提供します。
このスコアにより、決定の信頼性に疑問を投げかけ、しきい値を調査して、人間の判断との相関に代わるものとして新しいAUCメトリックを開発することができます。

要約(オリジナル)

Large Language Models are prompting us to view more NLP tasks from a generative perspective. At the same time, they offer a new way of accessing information, mainly through the RAG framework. While there have been notable improvements for the autoregressive models, overcoming hallucination in the generated answers remains a continuous problem. A standard solution is to use commercial LLMs, such as GPT4, to evaluate these algorithms. However, such frameworks are expensive and not very transparent. Therefore, we propose a study which demonstrates the interest of open-weight models for evaluating RAG hallucination. We develop a lightweight approach using smaller, quantized LLMs to provide an accessible and interpretable metric that gives continuous scores for the generated answer with respect to their correctness and faithfulness. This score allows us to question decisions’ reliability and explore thresholds to develop a new AUC metric as an alternative to correlation with human judgment.

arxiv情報

著者 Alex-Razvan Ispas,Charles-Elie Simon,Fabien Caspani,Vincent Guigue
発行日 2025-03-20 13:58:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-08, cs.AI, cs.CL, I.2.7 | Towards Lighter and Robust Evaluation for Retrieval Augmented Generation はコメントを受け付けていません

SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs

要約

トランスベースの大手言語モデル(LLM)はすでに長いテキストタスクで顕著な結果を達成していますが、限られたGPUメモリ(VRAM)リソースは、シーケンスの長さが増加するにつれて、キー値(kV)キャッシュの直線的に成長する需要に対応するのに苦労しており、長いシーケンスにLLMを適用するためのボトルネックになりました。
既存のKVキャッシュ圧縮方法には、KVキャッシュの立ち退き、マージ、または量子化がそのサイズを縮小することが含まれます。
ただし、圧縮により不可逆的な情報が忘れられ、その後のデコードの精度に影響を与える可能性があります。
このホワイトペーパーでは、Specacheを提案します。これは、大きくて簡単に拡張可能なCPUメモリを最大限に活用して、完全なKVキャッシュをオフロードし、VRAMの低ビットKVキャッシュコピーで測定された重要性に基づいて、各デコードステップにKVペアを動的にフェッチします。
CPU-GPU通信によって引き起こされる推論の遅延を回避するために、Specacheは次のトークンが出席するKVペアを投機的に予測し、次のデコードステップの前にプリフェッチと計算の並列化を可能にする次のデコードステップの前にプリフェッチすることができます。
ロングベンチとヘイスタックのベンチマークでの実験では、10倍のKVキャッシュ圧縮率があっても、再トレーニングなしで長いシーケンスの忘却を忘れながら、SpecacheがVRAMの使用量を効果的に削減することを確認します。

要約(オリジナル)

Transformer-based large language models (LLMs) have already achieved remarkable results on long-text tasks, but the limited GPU memory (VRAM) resources struggle to accommodate the linearly growing demand for key-value (KV) cache as the sequence length increases, which has become a bottleneck for the application of LLMs on long sequences. Existing KV cache compression methods include eviction, merging, or quantization of the KV cache to reduce its size. However, compression results in irreversible information forgetting, potentially affecting the accuracy of subsequent decoding. In this paper, we propose SpeCache, which takes full advantage of the large and easily expandable CPU memory to offload the complete KV cache, and dynamically fetches KV pairs back in each decoding step based on their importance measured by low-bit KV cache copy in VRAM. To avoid inference latency caused by CPU-GPU communication, SpeCache speculatively predicts the KV pairs that the next token might attend to, allowing us to prefetch them before the next decoding step which enables parallelization of prefetching and computation. Experiments on LongBench and Needle-in-a-Haystack benchmarks verify that SpeCache effectively reduces VRAM usage while avoiding information forgetting for long sequences without re-training, even with a 10x high KV cache compression ratio.

arxiv情報

著者 Shibo Jie,Yehui Tang,Kai Han,Zhi-Hong Deng,Jing Han
発行日 2025-03-20 14:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs はコメントを受け付けていません

CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models

要約

最先端の大規模な言語モデル(LLMS)は、印象的なコード生成機能を実証していますが、コードレビューに対処するためのソースコードを改訂し、実際の使用を妨げるなどの実世界のソフトウェアエンジニアリングタスクに苦労しています。
コードレビューのコメントは、多くの場合、暗黙的で曖昧で口語的であり、コードと人間の意図の両方を把握するためにモデルが必要です。
この課題では、技術的なコンテキストと会話の両方のコンテキストを橋渡しする大規模な言語モデルの能力を評価する必要があります。
既存の作業では、これらのコメントを解決するために自動コード洗練(ACR)タスクを採用していますが、現在の評価方法は不足しており、モデルの障害に関する限られた洞察を提供し、データ汚染のトレーニングを受けやすいテキストマッチングメトリックに依存しています。
これらの制限に対処するために、モデル能力の細かい評価を実施し、データ汚染のリスクを軽減できる新しい評価ベンチマーク$ \ textbf {codereviewqa} $を導入します。
codereviewqaでは、コード洗練の生成タスクを$ \ textbf {3つの本質的な推論手順} $:$ \ textit {change type承認} $(ctr)、$ \ textit {cand} $(cl)、および$ \ textIt {solution dolution識別} $(si)に分解します。
各ステップは、さまざまな難易度レベルを持つ複数選択の質問として再定式化され、モデル能力の正確な評価を可能にしながら、データ汚染のリスクを軽減します。
当社の包括的な評価は、最近、$ \ textBf {900手動でキュレーションされた高品質の例で、9つのプログラミング言語にわたって大規模な言語モデルをリリースしました。
私たちの結果は、CodereViewQAがコードレビューの理解に特定のモデルの弱点を公開できることを示しています。

要約(オリジナル)

State-of-the-art large language models (LLMs) have demonstrated impressive code generation capabilities but struggle with real-world software engineering tasks, such as revising source code to address code reviews, hindering their practical use. Code review comments are often implicit, ambiguous, and colloquial, requiring models to grasp both code and human intent. This challenge calls for evaluating large language models’ ability to bridge both technical and conversational contexts. While existing work has employed the automated code refinement (ACR) task to resolve these comments, current evaluation methods fall short, relying on text matching metrics that provide limited insight into model failures and remain susceptible to training data contamination. To address these limitations, we introduce a novel evaluation benchmark, $\textbf{CodeReviewQA}$ that enables us to conduct fine-grained assessment of model capabilities and mitigate data contamination risks. In CodeReviewQA, we decompose the generation task of code refinement into $\textbf{three essential reasoning steps}$: $\textit{change type recognition}$ (CTR), $\textit{change localisation}$ (CL), and $\textit{solution identification}$ (SI). Each step is reformulated as multiple-choice questions with varied difficulty levels, enabling precise assessment of model capabilities, while mitigating data contamination risks. Our comprehensive evaluation spans 72 recently released large language models on $\textbf{900 manually curated, high-quality examples}$ across nine programming languages. Our results show that CodeReviewQA is able to expose specific model weaknesses in code review comprehension, disentangled from their generative automated code refinement results.

arxiv情報

著者 Hong Yi Lin,Chunhua Liu,Haoyu Gao,Patanamon Thongtanunam,Christoph Treude
発行日 2025-03-20 14:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models はコメントを受け付けていません

Binary-Integer-Programming Based Algorithm for Expert Load Balancing in Mixture-of-Experts Models

要約

MOE(Expertsの混合)モデルの事前トレーニングの場合、主な問題の1つは不均衡な専門家負荷であり、ルーティングの崩壊または計算オーバーヘッドの増加を引き起こす可能性があります。
既存の方法には、損失制御された方法と損失のない方法が含まれています。この方法では、最初は不均衡な程度の両方のトレーニングステップが依然として高く、ゆっくりと減少します。
この作業では、バイナリ整数プログラミング(BIP)に基づいた専門家の負荷分散アルゴリズムであるBIPベースのバランスを提案します。
アルゴリズムは、各MOE層に追加のベクトルQを維持し、非常に小さな時間コストでバイナリ整数プログラミングを解くことにより、SのトップK順序を変更するのに役立ちます。
2つのMOE言語モデルにアルゴリズムを実装します:16-Expert(0.3b)および64-Expert(1.1b)。
実験結果は、両方のモデルが損失制御方法と損失のない方法と比較して、アルゴリズムが最も低い困惑でモデルを訓練し、損失制御方法と比較してトレーニング前の時間の少なくとも13%を節約することを示しています。
現在の知識の中で、これは、トレーニング前のプロセス全体で最初のステップから最後のステップまで、すべてのMOE層のすべての専門家の負荷バランスステータスを維持する最初のルーティングアルゴリズムであり、訓練されたMOEモデルもうまく機能します。
この作業のコード資料は、https://github.com/sunyuanllm/bip_routing_algorithmで入手できます。

要約(オリジナル)

For pre-training of MoE (Mixture-of-Experts) models, one of the main issues is unbalanced expert loads, which may cause routing collapse or increased computational overhead. Existing methods contain the Loss-Controlled method and the Loss-Free method, where both the unbalanced degrees at first several training steps are still high and decrease slowly. In this work, we propose BIP-Based Balancing, an expert load balancing algorithm based on binary integer programming (BIP). The algorithm maintains an additional vector q on each MoE layer that can help change the top-K order of s by solving a binary integer programming with very small time costs. We implement the algorithm on two MoE language models: 16-expert (0.3B) and 64-expert (1.1B). The experimental results show that on both models comparing with the Loss-Controlled method and the Loss-Free method, our algorithm trains models with the lowest perplexities, while saves at least 13% of pre-training time compared with the Loss-Controlled method. Within our current knowledge, this is the first routing algorithm that achieves maintaining load balance status on every expert in every MoE layer from the first step to the last step during the whole pre-training process, while the trained MoE models also perform well. The code material of this work is available at https://github.com/sunyuanLLM/bip_routing_algorithm.

arxiv情報

著者 Yuan Sun
発行日 2025-03-20 14:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Binary-Integer-Programming Based Algorithm for Expert Load Balancing in Mixture-of-Experts Models はコメントを受け付けていません

Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation

要約

スケーリングアーキテクチャは、シーンテキスト認識(STR)の改善に効果的であることが証明されていますが、ビジョンエンコーダーとテキストデコーダースケーリングの個々の貢献は、採点不足のままです。
この作業では、詳細な経験的分析を提示し、以前の観察とは反対に、デコーダーをスケーリングすると、エンコーダースケーリングのみで達成されたものを超える重大なパフォーマンスゲインが得られることを実証します。
また、特にSTRモデルの有効性を制限する可能性のある実際のデータ、特に実際のデータにおけるSTRの重要な課題としてラベルノイズを特定します。
これに対処するために、Cloze Self-DiStillation(CSD)を提案します。これは、教師モデルによって生成されたコンテキストを意識したソフト予測と擬似標識から生徒モデルを蒸留することによりラベルノイズを軽減する方法です。
さらに、STRの微分の交差時点を導入することにより、デコーダーアーキテクチャを強化します。
私たちの方法論は、実際のデータのみを使用して11のベンチマークのうち10で最先端のパフォーマンスを実現し、パラメーターのサイズと計算コストを大幅に削減します。

要約(オリジナル)

Scaling architectures have been proven effective for improving Scene Text Recognition (STR), but the individual contribution of vision encoder and text decoder scaling remain under-explored. In this work, we present an in-depth empirical analysis and demonstrate that, contrary to previous observations, scaling the decoder yields significant performance gains, always exceeding those achieved by encoder scaling alone. We also identify label noise as a key challenge in STR, particularly in real-world data, which can limit the effectiveness of STR models. To address this, we propose Cloze Self-Distillation (CSD), a method that mitigates label noise by distilling a student model from context-aware soft predictions and pseudolabels generated by a teacher model. Additionally, we enhance the decoder architecture by introducing differential cross-attention for STR. Our methodology achieves state-of-the-art performance on 10 out of 11 benchmarks using only real data, while significantly reducing the parameter size and computational costs.

arxiv情報

著者 Andrea Maracani,Savas Ozkan,Sijun Cho,Hyowon Kim,Eunchung Noh,Jeongwon Min,Cho Jung Min,Dookun Park,Mete Ozay
発行日 2025-03-20 14:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation はコメントを受け付けていません

Using Contextually Aligned Online Reviews to Measure LLMs’ Performance Disparities Across Language Varieties

要約

言語は異なる品種を持つことができます。
これらの品種は、大規模な言語モデル(LLM)を含む自然言語処理(NLP)モデルのパフォーマンスに影響を与える可能性があります。
このペーパーでは、言語の品種間のベンチマークモデルのパフォーマンスに対する斬新で費用対効果の高いアプローチを紹介します。
Booking.comなどの国際的なオンラインレビュープラットフォームは、同じ言語(例えば、マンダリン中国語)を使用して同じ評価を持つ同じホテルのレビュー(例:Taiwan Mandarin、Mandarin、Mainland Mandarin)を使用した同じホテルのレビューなど、同様の現実世界のシナリオからの異なる言語品種のコメントをキャプチャするデータセットを構築するための効果的なデータソースとして役立つと主張しています。
この概念を証明するために、台湾のマンダリンと本土のマンダリンでのレビューを含むコンテキスト整列データセットを構築し、センチメント分析タスクで6つのLLMSをテストしました。
私たちの結果は、LLMSが台湾のマンダリンで一貫してパフォーマンスを下回っていることを示しています。

要約(オリジナル)

A language can have different varieties. These varieties can affect the performance of natural language processing (NLP) models, including large language models (LLMs), which are often trained on data from widely spoken varieties. This paper introduces a novel and cost-effective approach to benchmark model performance across language varieties. We argue that international online review platforms, such as Booking.com, can serve as effective data sources for constructing datasets that capture comments in different language varieties from similar real-world scenarios, like reviews for the same hotel with the same rating using the same language (e.g., Mandarin Chinese) but different language varieties (e.g., Taiwan Mandarin, Mainland Mandarin). To prove this concept, we constructed a contextually aligned dataset comprising reviews in Taiwan Mandarin and Mainland Mandarin and tested six LLMs in a sentiment analysis task. Our results show that LLMs consistently underperform in Taiwan Mandarin.

arxiv情報

著者 Zixin Tang,Chieh-Yang Huang,Tsung-Che Li,Ho Yin Sam Ng,Hen-Hsen Huang,Ting-Hao ‘Kenneth’ Huang
発行日 2025-03-20 15:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Using Contextually Aligned Online Reviews to Measure LLMs’ Performance Disparities Across Language Varieties はコメントを受け付けていません

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t

要約

大規模な言語モデル(LLM)の推論機能を強化することは、通常、大規模な計算リソースと広範なデータセットに依存しており、リソースに制約のある設定のアクセシビリティを制限します。
私たちの研究では、強化学習(RL)の可能性を調査し、15億パラメーターモデルであるDeepSeek-R1-Distill-Qwen-1.5Bに焦点を当て、24時間以内に4つのNVIDIA A40 GPU(それぞれ48 GB VRAM)でのトレーニングを行っています。
グループ相対ポリシー最適化(GRPO)アルゴリズムを適応させ、コンパクトで高品質の数学的推論データセットをキュレーションして、モデルの動作とパフォーマンスを探求するために3つの実験を実施しました。
私たちの結果は、たとえば、AMC23の精度が63%から80%に上昇し、AIME24が46.7%に達し、O1 -PREVIEWを超える急速な推論の利益を示しています。ベースラインモデルの数千ドルと比較して、7,000ドルのサンプルと42ドルのトレーニングコストを使用しています。
ただし、最適化の不安定性や長さの制約などの課題は、長期にわたるトレーニングで現れました。
これらの調査結果は、小型LLMSのRLベースの微調整の有効性を強調し、大規模なアプローチに代わる費用対効果の高い代替品を提供します。
コードとデータセットをオープンソースリソースとしてリリースし、トレードオフに関する洞察を提供し、リソース制限環境でスケーラブルで推論可能なLLMの基盤を築きます。
すべてはhttps://github.com/knoveleng/open-rsで入手できます。

要約(オリジナル)

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains – e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview – using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

arxiv情報

著者 Quy-Anh Dang,Chris Ngo
発行日 2025-03-20 15:13:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t はコメントを受け付けていません

Graph-Guided Textual Explanation Generation Framework

要約

自然言語の説明(NLE)は、モデルの予測に関する推論のもっともらしい自由テキストの説明を提供するために一般的に使用されます。
しかし、最近の研究は彼らの忠実さに疑問を呈しています。なぜなら、彼らは予測された答えに関するモデルの内部推論プロセスを正確に反映していない可能性があるからです。
対照的に、説明 – モデルの予測された答えに重要な入力フラグメント – 測定可能な忠実さを抑制する説明を強調します。
この基盤に基づいて、NLEの忠実さを高めるために設計されたグラフ誘導テキスト説明生成フレームワークであるG-Texを提案します。
具体的には、ハイライトの説明は、最初に、回答予測に対するモデルの推論ロジックを反映した忠実な手がかりとして抽出されます。
その後、グラフニューラルネットワークレイヤーを介してエンコードされ、NLE生成をガイドします。NLE生成は、生成された説明を予測された答えに向けたモデルの根本的な推論に合わせます。
3つの推論データセットを使用したT5とBARTの実験は、G-Texがベースラインの方法と比較してNLEの忠実さを最大12.18%改善することを示しています。
さらに、G-Texは、人間が作成したものとより大きな意味的および語彙的類似性を持つNLEを生成します。
人間の評価は、G-Texが冗長コンテンツを減らし、NLEの全体的な品質を向上させることができることを示しています。
私たちの作品は、NLE生成を強化するためにNLE生成を明示的に導くための新しい方法を提示し、NLEおよび生成されたテキストのより広い基準に対処するための基盤として機能します。

要約(オリジナル)

Natural language explanations (NLEs) are commonly used to provide plausible free-text explanations of a model’s reasoning about its predictions. However, recent work has questioned their faithfulness, as they may not accurately reflect the model’s internal reasoning process regarding its predicted answer. In contrast, highlight explanations–input fragments critical for the model’s predicted answers–exhibit measurable faithfulness. Building on this foundation, we propose G-Tex, a Graph-Guided Textual Explanation Generation framework designed to enhance the faithfulness of NLEs. Specifically, highlight explanations are first extracted as faithful cues reflecting the model’s reasoning logic toward answer prediction. They are subsequently encoded through a graph neural network layer to guide the NLE generation, which aligns the generated explanations with the model’s underlying reasoning toward the predicted answer. Experiments on T5 and BART using three reasoning datasets show that G-Tex improves NLE faithfulness by up to 12.18% compared to baseline methods. Additionally, G-Tex generates NLEs with greater semantic and lexical similarity to human-written ones. Human evaluations show that G-Tex can decrease redundant content and enhance the overall quality of NLEs. Our work presents a novel method for explicitly guiding NLE generation to enhance faithfulness, serving as a foundation for addressing broader criteria in NLE and generated text.

arxiv情報

著者 Shuzhou Yuan,Jingyi Sun,Ran Zhang,Michael Färber,Steffen Eger,Pepa Atanasova,Isabelle Augenstein
発行日 2025-03-20 15:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Graph-Guided Textual Explanation Generation Framework はコメントを受け付けていません

Robust LLM safeguarding via refusal feature adversarial training

要約

大規模な言語モデル(LLM)は、有害な反応を引き出す可能性のある敵対的な攻撃に対して脆弱です。
そのような攻撃に対する防御は、脱獄メカニズムの不透明度とLLMSのトレーニングの高い計算コストのために、困難なままです。
敵対的な攻撃は、拒否機能と呼ばれる残留ストリーム埋め込みスペースの次元を除去することによって機能するLLMセーフガードを回避するための普遍的なメカニズムを共有することを実証します。
さらに、拒否機能アブレーション(RFA)の操作が、モデルの安全性の最悪の摂動に近似することを示します。
これらの調査結果に基づいて、RFAを介した入力レベルの攻撃の効果をシミュレートすることによりLLM敵対的なトレーニングを効率的に実行する新しいアルゴリズムである拒否機能の敵対的訓練(Refat)を提案します。
実験結果は、リファートが幅広い敵対的攻撃に対して3つの一般的なLLMの堅牢性を大幅に改善することを示しています。

要約(オリジナル)

Large language models (LLMs) are vulnerable to adversarial attacks that can elicit harmful responses. Defending against such attacks remains challenging due to the opacity of jailbreaking mechanisms and the high computational cost of training LLMs robustly. We demonstrate that adversarial attacks share a universal mechanism for circumventing LLM safeguards that works by ablating a dimension in the residual stream embedding space called the refusal feature. We further show that the operation of refusal feature ablation (RFA) approximates the worst-case perturbation of offsetting model safety. Based on these findings, we propose Refusal Feature Adversarial Training (ReFAT), a novel algorithm that efficiently performs LLM adversarial training by simulating the effect of input-level attacks via RFA. Experiment results show that ReFAT significantly improves the robustness of three popular LLMs against a wide range of adversarial attacks, with considerably less computational overhead compared to existing adversarial training methods.

arxiv情報

著者 Lei Yu,Virginie Do,Karen Hambardzumyan,Nicola Cancedda
発行日 2025-03-20 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Robust LLM safeguarding via refusal feature adversarial training はコメントを受け付けていません

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

要約

大きな言語モデルの推論は、さまざまなドメインで急速に進化しています。
ただし、複雑な財務タスクを処理する能力には、詳細な調査が必要です。
この論文では、FIN-R1を紹介します。Fin-R1は、金融セクター向けに特別に設計された大きな言語モデルを紹介します。
FIN-R1は、2段階のアーキテクチャを使用して構築され、DeepSeek-R1に基づいて蒸留および処理された金融推論データセットを活用します。
監視された微調整(SFT)および強化学習(RL)トレーニングにより、さまざまな財政的推論タスクにわたって70億のパラメーターサイズで、DeepSeek-R1に近いパフォーマンスを実証します。
私たちの評価において、これらのLLM間のFINQAおよびConvfinqAタスクの最先端(SOTA)を達成し、他のタスクでも大きなモデルを上回ります。
FIN-R1は、強力な推論と意思決定機能を紹介し、金融領域で遭遇するさまざまな問題の解決策を提供します。
私たちのコードは、https://github.com/sufe-aiflm-lab/fin-r1で入手できます。

要約(オリジナル)

Reasoning large language models are rapidly evolving across various domains. However, their capabilities in handling complex financial tasks still require in-depth exploration. In this paper, we introduce Fin-R1, a reasoning large language model specifically designed for the financial sector. Fin-R1 is built using a two-stage architecture, leveraging a financial reasoning dataset distilled and processed based on DeepSeek-R1. Through supervised fine-tuning (SFT) and reinforcement learning (RL) training, it demonstrates performance close to DeepSeek-R1 with a parameter size of 7 billion across a range of financial reasoning tasks. It achieves the state-of-the-art (SOTA) in the FinQA and ConvFinQA tasks between those LLMs in our evaluation, surpassing larger models in other tasks as well. Fin-R1 showcases strong reasoning and decision-making capabilities, providing solutions to various problems encountered in the financial domain. Our code is available at https://github.com/SUFE-AIFLM-Lab/Fin-R1.

arxiv情報

著者 Zhaowei Liu,Xin Guo,Fangqi Lou,Lingfeng Zeng,Jinyi Niu,Zixuan Wang,Jiajie Xu,Weige Cai,Ziwei Yang,Xueqian Zhao,Chao Li,Sheng Xu,Dezhi Chen,Yun Chen,Zuo Bai,Liwen Zhang
発行日 2025-03-20 15:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning はコメントを受け付けていません