Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models

要約

この研究では、クラッシュの物語の分類におけるディープラーニング(DL)モデルの精度と専門家の合意との関係を調査します。
BERTバリアント、ユニバーサルセンテンスエンコーダー(使用)、およびゼロショット分類器を含む5つのDLモデルを、専門家標識データと物語テキストに対して評価します。
分析はさらに、GPT-4、Llama 3、Qwen、およびClaudeの4つの大きな言語モデル(LLMS)に拡張されます。
私たちの結果は直感に反する傾向を明らかにします。技術的精度が高いモデルは、ドメインの専門家との一致が低いことがよくありますが、LLMは比較的低い精度スコアにもかかわらず、より大きなエキスパートアライメントを示します。
モデルと専門家の契約を定量化および解釈するために、CohenのKappa、主成分分析(PCA)、およびSHAPベースの説明可能性手法を採用しています。
調査結果は、エキスパートに合ったモデルが、位置固有のキーワードではなく、コンテキストおよび時間的言語の合図に依存する傾向があることを示しています。
これらの結果は、安全性が批判的なNLPアプリケーションのモデルを評価するには精度だけでは不十分であることを強調しています。
私たちは、モデル評価フレームワークの補完的なメトリックとして専門家契約を組み込むことを提唱し、クラッシュ分析パイプラインの解釈可能でスケーラブルなツールとしてLLMの約束を強調しています。

要約(オリジナル)

This study explores the relationship between deep learning (DL) model accuracy and expert agreement in the classification of crash narratives. We evaluate five DL models — including BERT variants, the Universal Sentence Encoder (USE), and a zero-shot classifier — against expert-labeled data and narrative text. The analysis is further extended to four large language models (LLMs): GPT-4, LLaMA 3, Qwen, and Claude. Our results reveal a counterintuitive trend: models with higher technical accuracy often exhibit lower agreement with domain experts, whereas LLMs demonstrate greater expert alignment despite relatively lower accuracy scores. To quantify and interpret model-expert agreement, we employ Cohen’s Kappa, Principal Component Analysis (PCA), and SHAP-based explainability techniques. Findings indicate that expert-aligned models tend to rely more on contextual and temporal language cues, rather than location-specific keywords. These results underscore that accuracy alone is insufficient for evaluating models in safety-critical NLP applications. We advocate for incorporating expert agreement as a complementary metric in model evaluation frameworks and highlight the promise of LLMs as interpretable, scalable tools for crash analysis pipelines.

arxiv情報

著者 Sudesh Ramesh Bhagat,Ibne Farabi Shihab,Anuj Sharma
発行日 2025-04-17 16:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models はコメントを受け付けていません

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

要約

強化学習(RL)で訓練された推論モデル(例えば、Deepseek R1)はテキストの推論に優れていますが、コード通訳者(CI)などの計算ツールが明確な有点を示すような幾何学的推論、簡潔な計算、または複雑な方程式解決領域など、構造化された問題解決を必要とするシナリオで苦労しています。
このギャップを埋めるために、2つの主要な機能を含むツール統合学習で長期の推論を強化するRetoolを提案します。(1)自然言語の推論プロセス内でのリアルタイムコード実行の動的インターリーブ、および(2)マルチターンリアルタイムコード実行を使用したポリシーロールアウトを可能にする自動RLパラダイムは、フィードバックに基づいてモデルを指導します。
Retoolは、合成コールドスタートデータ生成から始まる体系的なトレーニングフレームワークを採用して、微調整ベースモデルのコードを支持した長型の推論トレースを生成します。
その後のRLトレーニングは、モデルのツール使用戦略を繰り返し改善するための報酬としてタスクの結果を活用し、人間の事前に最適なツールの呼び出しパターンの自律的な発見を可能にします。
挑戦的な数学オリンピアドベンチマークAIMEの実験は、Retoolの優位性を示しています。32Bモデルは、400トレーニングステップで67%の精度を達成し、テキストベースのRLベースライン(40%の精度、1080ステップ)を効率とパフォーマンスに及ぼします。
驚くべきことに、Retool-32Bは拡張設定で72.5%の精度を達成し、OpenaiのO1-Previewを27.9%上回ります。
さらなる分析により、コードの自己修正、モデルが自律的に適応ツールの使用をマスターする「aha瞬間」を通知するなどの緊急の動作が明らかになります。
これらの調査結果は、複雑な数学的推論を進めるための結果主導のツール統合の約束を強調し、ハイブリッドニューロシンボリックシステムに関する新しい洞察を提供します。

要約(オリジナル)

While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model’s tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool’s superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI’s o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ”aha moment” in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.

arxiv情報

著者 Jiazhan Feng,Shijue Huang,Xingwei Qu,Ge Zhang,Yujia Qin,Baoquan Zhong,Chengquan Jiang,Jinxin Chi,Wanjun Zhong
発行日 2025-04-17 16:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReTool: Reinforcement Learning for Strategic Tool Use in LLMs はコメントを受け付けていません

Retrieval-Augmented Generation with Conflicting Evidence

要約

大規模な言語モデル(LLM)エージェントは、回答の事実性を改善するために、検索された生成(RAG)をますます採用しています。
ただし、実際には、これらのシステムは、曖昧なユーザークエリと複数のソースからの潜在的に矛盾する情報を処理する必要があることが多く、騒々しいまたは無関係なドキュメントからの不正確な情報を抑制する必要があります。
以前の研究は一般に、これらの課題を単独で研究し、対処してきました。これは、騒音や誤報に対する曖昧さや堅牢性など、一度に1つの側面のみを考慮しています。
代わりに、複数の要因を同時に検討し、(i)ramdocs(曖昧さと誤った情報の検索とドキュメントの誤った情報)を提案します。これは、あいまいさ、誤った情報、ノイズなど、ユーザークエリの矛盾する証拠の複雑で現実的なシナリオをシミュレートする新しいデータセットです。
(ii)Madam-Ragは、LLMエージェントが複数のラウンドでの回答のメリットについて議論するマルチエージェントアプローチであり、アグリゲーターが誤った情報と騒音を破棄しながら、乱用されたエンティティに対応する応答を照合し、それによって紛争の多様なソースを共同で処理できるようにする。
Ambigdocsで閉じたオープンソースモデルの両方を使用してMadam-Ragの有効性を実証します。これは、あいまいなクエリにすべての有効な回答を提示する必要がありますが、最大11.40%とWaithevalで強力なRagベースラインを改善します。
さらに、Ramdocsは既存のRAGベースラインに課題をもたらすことがわかります(Llama3.3-70B-Instructは32.60の正確な一致スコアのみを取得します)。
Madam-Ragはこれらの矛盾する要因に対処し始めますが、分析は、特に証拠を支持し、誤った情報を支持する際の不均衡のレベルを高める場合、実質的なギャップが残っていることを示しています。

要約(オリジナル)

Large language model (LLM) agents are increasingly employing retrieval-augmented generation (RAG) to improve the factuality of their responses. However, in practice, these systems often need to handle ambiguous user queries and potentially conflicting information from multiple sources while also suppressing inaccurate information from noisy or irrelevant documents. Prior work has generally studied and addressed these challenges in isolation, considering only one aspect at a time, such as handling ambiguity or robustness to noise and misinformation. We instead consider multiple factors simultaneously, proposing (i) RAMDocs (Retrieval with Ambiguity and Misinformation in Documents), a new dataset that simulates complex and realistic scenarios for conflicting evidence for a user query, including ambiguity, misinformation, and noise; and (ii) MADAM-RAG, a multi-agent approach in which LLM agents debate over the merits of an answer over multiple rounds, allowing an aggregator to collate responses corresponding to disambiguated entities while discarding misinformation and noise, thereby handling diverse sources of conflict jointly. We demonstrate the effectiveness of MADAM-RAG using both closed and open-source models on AmbigDocs — which requires presenting all valid answers for ambiguous queries — improving over strong RAG baselines by up to 11.40% and on FaithEval — which requires suppressing misinformation — where we improve by up to 15.80% (absolute) with Llama3.3-70B-Instruct. Furthermore, we find that RAMDocs poses a challenge for existing RAG baselines (Llama3.3-70B-Instruct only obtains 32.60 exact match score). While MADAM-RAG begins to address these conflicting factors, our analysis indicates that a substantial gap remains especially when increasing the level of imbalance in supporting evidence and misinformation.

arxiv情報

著者 Han Wang,Archiki Prasad,Elias Stengel-Eskin,Mohit Bansal
発行日 2025-04-17 16:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Retrieval-Augmented Generation with Conflicting Evidence はコメントを受け付けていません

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws

要約

大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な能力を実証していますが、基礎となるメカニズムと、スケーリング法、幻覚、関連行動など、いくつかの現象についての原則的な説明はとらえどころのないままです。
この作業では、Kolmogorovの複雑さとShannon情報理論に基づいた圧縮と予測の古典的な関係を再訪し、LLM行動に関するより深い洞察を提供します。
コルモゴロフ構造関数を活用し、LLM圧縮を2部構成のコーディングプロセスとして解釈することにより、LLMSが、広範な構文パターンから徐々に希少な知識要素まで、増加するモデルとデータスケール全体で情報を取得および保存する方法を詳細に見ています。
HeapとZIPFの法則に触発されたこの理論的な視点と自然な仮定に動機付けられ、Syntax-Knowledgeモデルと呼ばれる単純化された階層データ生成フレームワークを紹介します。
ベイジアンの設定では、このモデル内の予測と圧縮が自然にLLMの多様な学習とスケーリングの行動につながることを示します。
特に、当社の理論分析は、データとモデルのスケーリング法則、トレーニング中の知識獲得のダイナミクスとLLMSの微調整の事実の幻覚の両方について、直感的かつ原則的な説明を提供します。
実験結果は、理論的予測を検証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet principled explanations for their underlying mechanisms and several phenomena, such as scaling laws, hallucinations, and related behaviors, remain elusive. In this work, we revisit the classical relationship between compression and prediction, grounded in Kolmogorov complexity and Shannon information theory, to provide deeper insights into LLM behaviors. By leveraging the Kolmogorov Structure Function and interpreting LLM compression as a two-part coding process, we offer a detailed view of how LLMs acquire and store information across increasing model and data scales — from pervasive syntactic patterns to progressively rarer knowledge elements. Motivated by this theoretical perspective and natural assumptions inspired by Heap’s and Zipf’s laws, we introduce a simplified yet representative hierarchical data-generation framework called the Syntax-Knowledge model. Under the Bayesian setting, we show that prediction and compression within this model naturally lead to diverse learning and scaling behaviors of LLMs. In particular, our theoretical analysis offers intuitive and principled explanations for both data and model scaling laws, the dynamics of knowledge acquisition during training and fine-tuning, factual knowledge hallucinations in LLMs. The experimental results validate our theoretical predictions.

arxiv情報

著者 Zhixuan Pan,Shaowen Wang,Jian Li
発行日 2025-04-17 16:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws はコメントを受け付けていません

An Empirically Grounded Identifiability Theory Will Accelerate Self-Supervised Learning Research

要約

自己教師の学習(SSL)は、多くの現在のAIシステムを強化しています。
研究の関心と投資が増加するにつれて、SSL設計スペースは拡大し続けています。
プラトニック表現仮説(PRH)に続くSSLのプラトニックビューは、異なる方法とエンジニアリングアプローチにもかかわらず、すべての表現が同じプラトニックの理想に収束することを示唆しています。
ただし、この現象には正確な理論的説明がありません。
識別可能性理論(IT)から証拠を合成することにより、PRHがSSLで出現できることを示します。
ただし、現在のSSLの経験的成功を説明することはできません。
理論と実践のギャップを埋めるために、SSLパイプライン全体を含むより広範な理論的枠組みである特異識別性理論(SITH)と呼ばれるものに拡大することを提案します。
SITHは、SSLの暗黙的なデータの仮定に対するより深い洞察を可能にし、より解釈可能で一般化可能な表現を学習するための分野を前進させます。
将来の研究のための3つの重要な方向性を強調します。1)SSLのトレーニングダイナミクスと収束特性。
2)有限サンプル、バッ​​チサイズ、およびデータの多様性の影響。
3)建築、増強、初期化スキーム、およびオプティマイザーにおける誘導バイアスの役割。

要約(オリジナル)

Self-Supervised Learning (SSL) powers many current AI systems. As research interest and investment grow, the SSL design space continues to expand. The Platonic view of SSL, following the Platonic Representation Hypothesis (PRH), suggests that despite different methods and engineering approaches, all representations converge to the same Platonic ideal. However, this phenomenon lacks precise theoretical explanation. By synthesizing evidence from Identifiability Theory (IT), we show that the PRH can emerge in SSL. However, current IT cannot explain SSL’s empirical success. To bridge the gap between theory and practice, we propose expanding IT into what we term Singular Identifiability Theory (SITh), a broader theoretical framework encompassing the entire SSL pipeline. SITh would allow deeper insights into the implicit data assumptions in SSL and advance the field towards learning more interpretable and generalizable representations. We highlight three critical directions for future research: 1) training dynamics and convergence properties of SSL; 2) the impact of finite samples, batch size, and data diversity; and 3) the role of inductive biases in architecture, augmentations, initialization schemes, and optimizers.

arxiv情報

著者 Patrik Reizinger,Randall Balestriero,David Klindt,Wieland Brendel
発行日 2025-04-17 17:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | An Empirically Grounded Identifiability Theory Will Accelerate Self-Supervised Learning Research はコメントを受け付けていません

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

要約

水中音響ターゲット認識(UATR)は、海洋の多様性と国防の安全を保護するために非常に重要です。
深い学習の開発はUATRに新しい機会を提供しますが、参照サンプルの不足と複雑な環境干渉によってもたらされる課題に直面しています。
これらの問題に対処するために、マルチタスクバランスチャネル注意畳み込みコボリューションニューラルネットワーク(MT-BCA-CNN)を提案します。
この方法は、チャネル注意メカニズムをマルチタスク学習戦略と統合し、共有機能抽出器とマルチタスク分類器を構築して、ターゲット分類と機能の再構築タスクを共同で最適化します。
チャネル注意メカニズムは、ノイズを抑制しながら、高調波構造などの識別的な音響的特徴を動的に強化します。
Watkins Marine Lifeデータセットの実験は、MT-BCA-CNNが97 \%分類精度と95 \%$ F1 $スコアを27クラスの少ないショットシナリオで達成することを示しています。
アブレーション研究は、マルチタスク学習と注意メカニズムの相乗的な利点を確認し、動的な重み付け調整戦略はタスクの貢献度を効果的にバランスさせます。
この作業は、少数のショットの水中音響認識の効率的なソリューションを提供し、海洋生物音響学とソナー信号処理の研究を進めます。

要約(オリジナル)

Underwater acoustic target recognition (UATR) is of great significance for the protection of marine diversity and national defense security. The development of deep learning provides new opportunities for UATR, but faces challenges brought by the scarcity of reference samples and complex environmental interference. To address these issues, we proposes a multi-task balanced channel attention convolutional neural network (MT-BCA-CNN). The method integrates a channel attention mechanism with a multi-task learning strategy, constructing a shared feature extractor and multi-task classifiers to jointly optimize target classification and feature reconstruction tasks. The channel attention mechanism dynamically enhances discriminative acoustic features such as harmonic structures while suppressing noise. Experiments on the Watkins Marine Life Dataset demonstrate that MT-BCA-CNN achieves 97\% classification accuracy and 95\% $F1$-score in 27-class few-shot scenarios, significantly outperforming traditional CNN and ACNN models, as well as popular state-of-the-art UATR methods. Ablation studies confirm the synergistic benefits of multi-task learning and attention mechanisms, while a dynamic weighting adjustment strategy effectively balances task contributions. This work provides an efficient solution for few-shot underwater acoustic recognition, advancing research in marine bioacoustics and sonar signal processing.

arxiv情報

著者 Wei Huang,Shumeng Sun,Junpeng Lu,Zhenpeng Xu,Zhengyang Xiu,Hao Zhang
発行日 2025-04-17 17:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition はコメントを受け付けていません

Citation-Enhanced Generation for LLM-based Chatbots

要約

大規模な言語モデル(LLMS)は、チャットボットへの統合を含む、多様なシナリオ全体で強力な一般情報を示しています。
ただし、LLMベースのチャットボットの重要な課題は、応答で幻覚コンテンツを生成する可能性があることです。これにより、適用性が大幅に制限されます。
検索された生成の増加や人間のフィードバックによる補強学習など、幻覚を軽減するためにさまざまな努力が払われていますが、それらのほとんどは追加のトレーニングとデータアノテーションを必要とします。
この論文では、検索の議論と組み合わせた新しい事後引用強化生成(CEG)アプローチを提案します。
生成中の幻覚の防止に焦点を当てた以前の研究とは異なり、我々の方法はこの問題に事後に対処します。
検索モジュールが組み込まれ、生成されたコンテンツに関連するサポートドキュメントを検索し、自然言語の推論ベースの引用生成モジュールを採用しています。
生成されたコンテンツの参照が不足していると、すべてのステートメントが引用によってサポートされるまで、モデルが応答を再生できます。
この方法は、さまざまなLLMが可能なトレーニングフリーのプラグアンドプレイプラグインであることに注意してください。
さまざまな幻覚関連のデータセットでの実験は、私たちのフレームワークが、3つのベンチマークでの幻覚検出と応答再生の両方で最新の方法を上回ることを示しています。
当社のコードとデータセットは公開されます。

要約(オリジナル)

Large language models (LLMs) exhibit powerful general intelligence across diverse scenarios, including their integration into chatbots. However, a vital challenge of LLM-based chatbots is that they may produce hallucinated content in responses, which significantly limits their applicability. Various efforts have been made to alleviate hallucination, such as retrieval augmented generation and reinforcement learning with human feedback, but most of them require additional training and data annotation. In this paper, we propose a novel post-hoc Citation-Enhanced Generation (CEG) approach combined with retrieval argumentation. Unlike previous studies that focus on preventing hallucinations during generation, our method addresses this issue in a post-hoc way. It incorporates a retrieval module to search for supporting documents relevant to the generated content, and employs a natural language inference-based citation generation module. Once the statements in the generated content lack of reference, our model can regenerate responses until all statements are supported by citations. Note that our method is a training-free plug-and-play plugin that is capable of various LLMs. Experiments on various hallucination-related datasets show our framework outperforms state-of-the-art methods in both hallucination detection and response regeneration on three benchmarks. Our codes and dataset will be publicly available.

arxiv情報

著者 Weitao Li,Junkai Li,Weizhi Ma,Yang Liu
発行日 2025-04-17 17:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Citation-Enhanced Generation for LLM-based Chatbots はコメントを受け付けていません

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

要約

Sift(音声指導の微調整)、音声テキスト大規模言語モデル(LLM)の指示の微調整と事前トレーニングのために設計された50mの例データセットを紹介します。
Sift-50mは、14k時間の音声を集合的に含む公開されている音声コーパスから構築され、既製の専門モデルとともにLLMを活用しています。
データセットは5つの言語にまたがり、多様な範囲の音声理解と制御可能な音声生成命令を網羅しています。
Sift-50mを使用して、Sift-LLMを訓練します。これは、基礎となる音声タスクで競争力のあるパフォーマンスを達成しながら、既存の音声テキストLLMを指導ベンチマークで上回ることを訓練します。
さらなる研究をサポートするために、Speech-Text LLMSの命令に従う機能を評価するために特別に設計されたベンチマークデータセットであるEvalsiftも紹介します。

要約(オリジナル)

We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). SIFT-50M is built from publicly available speech corpora, which collectively contain 14K hours of speech, and leverages LLMs along with off-the-shelf expert models. The dataset spans five languages, encompassing a diverse range of speech understanding as well as controllable speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which outperforms existing speech-text LLMs on instruction-following benchmarks while achieving competitive performance on foundational speech tasks. To support further research, we also introduce EvalSIFT, a benchmark dataset specifically designed to evaluate the instruction-following capabilities of speech-text LLMs.

arxiv情報

著者 Prabhat Pandey,Rupak Vignesh Swaminathan,K V Vijay Girish,Arunasish Sen,Jian Xie,Grant P. Strimel,Andreas Schwarz
発行日 2025-04-17 17:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS | SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning はコメントを受け付けていません

LLMs Meet Finance: Fine-Tuning Foundation Models for the Open FinLLM Leaderboard

要約

このペーパーでは、大規模な言語モデル(LLM)の財務タスクへの適用を調査します。
Open FinllMリーダーボードをベンチマークとして使用して、基礎モデルを微調整しました。
QWEN2.5とDeepSeek-R1に基づいて、監視施設微調整(SFT)、直接選好最適化(DPO)、補強学習(RL)などの手法を採用して、金融能力を高めました。
微調整されたモデルは、幅広い財務タスクにわたって大幅なパフォーマンスの向上を実証しました。
さらに、金融領域のデータスケーリング法を測定しました。
私たちの仕事は、金融アプリケーションにおける大規模な言語モデル(LLM)の可能性を示しています。

要約(オリジナル)

This paper investigates the application of large language models (LLMs) to financial tasks. We fine-tuned foundation models using the Open FinLLM Leaderboard as a benchmark. Building on Qwen2.5 and Deepseek-R1, we employed techniques including supervised fine-tuning (SFT), direct preference optimization (DPO), and reinforcement learning (RL) to enhance their financial capabilities. The fine-tuned models demonstrated substantial performance gains across a wide range of financial tasks. Moreover, we measured the data scaling law in the financial domain. Our work demonstrates the potential of large language models (LLMs) in financial applications.

arxiv情報

著者 Varun Rao,Youran Sun,Mahendra Kumar,Tejas Mutneja,Agastya Mukherjee,Haizhao Yang
発行日 2025-04-17 17:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLMs Meet Finance: Fine-Tuning Foundation Models for the Open FinLLM Leaderboard はコメントを受け付けていません

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

要約

コミュニティの質問や回答から情報検索(IR)評価ベンチマークを自動的に構築するための再利用可能なフレームワークであるFressStackを紹介します。
FressStackは、次の手順を実施します。(1)コードと技術文書からの自動コーパスコレクション、(2)コミュニティの秘密の質問と回答からのナゲット生成、および(3)検索技術とハイブリッドアーキテクチャの融合を使用したナゲットレベルのサポート、ドキュメントの取得。
FreshStackを使用して、急速に成長し、最近の、ニッチなトピックに5つのデータセットを構築して、タスクが十分に困難であることを確認します。
FressStackでは、既存の検索モデルで、すぐに適用されると、5つのトピックすべてでOracleアプローチを大幅に下回り、IRの品質を向上させるための十分なヘッドルームを示します。
さらに、再生者が第1段階の検索精度を明確に改善しない場合(5つのトピックのうち2つ)を特定します。
FreshStackが、現実的でスケーラブルで、汚染されていないIRおよびRAG評価ベンチマークを構築するための将来の作業を促進することを願っています。
FreshStackデータセットは、https://fresh-stack.github.ioで入手できます。

要約(オリジナル)

We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

arxiv情報

著者 Nandan Thakur,Jimmy Lin,Sam Havens,Michael Carbin,Omar Khattab,Andrew Drozdov
発行日 2025-04-17 17:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents はコメントを受け付けていません