Multilingual Non-Factoid Question Answering with Answer Paragraph Selection

要約

ほとんどの既存の質問回答データセット(QUAD)は、主に高リソース言語のファクトイドベースの短いコンテキスト質問応答(QA)に焦点を当てています。
ただし、低リソース言語のこのようなデータセットの範囲は限られたままであり、ファクトイドベースのクワッドを中心とした作品はわずかであり、非ファクトルクワッドにはありません。
したがって、この作業は、等型の質問を持つ多言語のクワッドであるMunfquadを示しています。
これは、BBCニュース記事の尋問を質問として、および対応する段落を銀の答えとして利用します。
データセットは、38の言語にわたって578kを超えるQAペアで構成され、いくつかの低リソース言語を含み、これまでで最大の多言語QAデータセットとして存在します。
Munfquad(Golden Set)の790 QAペアの手動注釈に基づいて、98 \%の質問に対応する銀の回答を使用して回答できることがわかります。
微調整された回答段落選択(APS)モデルは、ベースラインよりも優れています。
APSモデルは、Munfquadテストセットとゴールデンセットで、それぞれ80 \%と72 \%の精度を達成し、それぞれ72 \%と66 \%のマクロF1を達成しました。
さらに、APSモデルは、シルバーラベルで微調整された後でも、ゴールデンセット内の特定の言語を効果的に一般化します。
また、微調整されたAPSモデルは、質問のコンテキストを減らすのに有益であることも観察します。
これらの調査結果は、このリソースがQA研究コミュニティに貴重な貢献になることを示唆しています。

要約(オリジナル)

Most existing Question Answering Datasets (QuADs) primarily focus on factoid-based short-context Question Answering (QA) in high-resource languages. However, the scope of such datasets for low-resource languages remains limited, with only a few works centered on factoid-based QuADs and none on non-factoid QuADs. Therefore, this work presents MuNfQuAD, a multilingual QuAD with non-factoid questions. It utilizes interrogative sub-headings from BBC news articles as questions and the corresponding paragraphs as silver answers. The dataset comprises over 578K QA pairs across 38 languages, encompassing several low-resource languages, and stands as the largest multilingual QA dataset to date. Based on the manual annotations of 790 QA-pairs from MuNfQuAD (golden set), we observe that 98\% of questions can be answered using their corresponding silver answer. Our fine-tuned Answer Paragraph Selection (APS) model outperforms the baselines. The APS model attained an accuracy of 80\% and 72\%, as well as a macro F1 of 72\% and 66\%, on the MuNfQuAD testset and the golden set, respectively. Furthermore, the APS model effectively generalizes a certain language within the golden set, even after being fine-tuned on silver labels. We also observe that the fine-tuned APS model is beneficial for reducing the context of a question. These findings suggest that this resource would be a valuable contribution to the QA research community.

arxiv情報

著者 Ritwik Mishra,Sreeram Vennam,Rajiv Ratn Shah,Ponnurangam Kumaraguru
発行日 2025-02-19 17:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Multilingual Non-Factoid Question Answering with Answer Paragraph Selection はコメントを受け付けていません

DataSciBench: An LLM Agent Benchmark for Data Science

要約

このホワイトペーパーでは、データサイエンスの大規模な言語モデル(LLM)機能を評価するための包括的なベンチマークであるDatascibenchを紹介します。
最近の関連ベンチマークは、主に単一のタスク、簡単に取得できるグラウンドトゥルース、および評価できるタスクの範囲を制限する簡単な評価メトリックに焦点を当てています。
対照的に、DASASCIBENCHは、不確実なグラウンドトゥルースと評価メトリックのための、より包括的でキュレーションされた自然で挑戦的なプロンプトのコレクションに基づいて構築されています。
グラウンドトゥルース(GT)を生成し、評価メトリックを検証するための半自動パイプラインを開発します。
このパイプラインは、収集されたプロンプト、事前定義されたタスクタイプ、および集約関数(メトリック)を活用することにより、LLMベースの自己整合性と人間の検証戦略を利用および実装して、正確なGTを作成します。
さらに、正確に定義されたメトリックとプログラマティックルールに基づいて各コード実行結果を評価するための革新的なタスク – 関数 – コード(TFC)フレームワークを提案します。
実験フレームワークでは、6つのAPIベースのモデル、8つのオープンソースの一般モデル、および収集した多様なプロンプトのセットを使用して、9つのオープンソースコード生成モデルをテストすることが含まれます。
このアプローチは、データサイエンスにおけるLLMのより包括的かつ厳密な評価を提供し、その長所と短所を明らかにすることを目的としています。
実験結果は、APIベースのモデルがすべてのメトリックのオープンソースモデルを上回ることを示しており、DeepSeek-Coder-33B-Instructがオープンソースモデルの中で最高のスコアを達成することを示しています。
https://github.com/thudm/datascibenchですべてのコードとデータをリリースします。

要約(オリジナル)

This paper presents DataSciBench, a comprehensive benchmark for evaluating Large Language Model (LLM) capabilities in data science. Recent related benchmarks have primarily focused on single tasks, easily obtainable ground truth, and straightforward evaluation metrics, which limits the scope of tasks that can be evaluated. In contrast, DataSciBench is constructed based on a more comprehensive and curated collection of natural and challenging prompts for uncertain ground truth and evaluation metrics. We develop a semi-automated pipeline for generating ground truth (GT) and validating evaluation metrics. This pipeline utilizes and implements an LLM-based self-consistency and human verification strategy to produce accurate GT by leveraging collected prompts, predefined task types, and aggregate functions (metrics). Furthermore, we propose an innovative Task – Function – Code (TFC) framework to assess each code execution outcome based on precisely defined metrics and programmatic rules. Our experimental framework involves testing 6 API-based models, 8 open-source general models, and 9 open-source code generation models using the diverse set of prompts we have gathered. This approach aims to provide a more comprehensive and rigorous evaluation of LLMs in data science, revealing their strengths and weaknesses. Experimental results demonstrate that API-based models outperform open-sourced models on all metrics and Deepseek-Coder-33B-Instruct achieves the highest score among open-sourced models. We release all code and data at https://github.com/THUDM/DataSciBench.

arxiv情報

著者 Dan Zhang,Sining Zhoubian,Min Cai,Fengzu Li,Lekang Yang,Wei Wang,Tianjiao Dong,Ziniu Hu,Jie Tang,Yisong Yue
発行日 2025-02-19 17:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DataSciBench: An LLM Agent Benchmark for Data Science はコメントを受け付けていません

Partially Observable Gaussian Process Network and Doubly Stochastic Variational Inference

要約

ガウスプロセス(GP)の次元の呪いを減らすために、それらは、低次元の結合されたサブプロセスのガウスプロセスネットワーク(GPN)に分解できます。
場合によっては、GPN内で中間観測が利用可能です。
ただし、中間観測はしばしば間接的で、騒々しく、ほとんどの現実世界のシステムでは不完全です。
この作業では、部分的に観察可能なガウスプロセスネットワーク(POGPN)を導入して、実際のプロセスネットワークをモデル化します。
サブプロセスの潜在機能の共同分布をモデル化し、すべてのサブプロセスからの観測を使用して推論を行います。
POGPNは、観測レンズ(観測可能性)を、深いガウスプロセスの確立された推論方法に組み込みます。
また、POPGNの2つのトレーニング方法を導入して、ノード観測を使用してネットワーク全体で推論を行います。
ベンチマークの問題へのアプリケーションは、トレーニングと推論中に部分的な観測を組み込むことで、ネットワーク全体の予測パフォーマンスを改善し、その実用的なアプリケーションの見通しを提供する方法を示しています。

要約(オリジナル)

To reduce the curse of dimensionality for Gaussian processes (GP), they can be decomposed into a Gaussian Process Network (GPN) of coupled subprocesses with lower dimensionality. In some cases, intermediate observations are available within the GPN. However, intermediate observations are often indirect, noisy, and incomplete in most real-world systems. This work introduces the Partially Observable Gaussian Process Network (POGPN) to model real-world process networks. We model a joint distribution of latent functions of subprocesses and make inferences using observations from all subprocesses. POGPN incorporates observation lenses (observation likelihoods) into the well-established inference method of deep Gaussian processes. We also introduce two training methods for POPGN to make inferences on the whole network using node observations. The application to benchmark problems demonstrates how incorporating partial observations during training and inference can improve the predictive performance of the overall network, offering a promising outlook for its practical application.

arxiv情報

著者 Saksham Kiroriwal,Julius Pfrommer,Jürgen Beyerer
発行日 2025-02-19 17:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Partially Observable Gaussian Process Network and Doubly Stochastic Variational Inference はコメントを受け付けていません

Lost in Sequence: Do Large Language Models Understand Sequential Recommendation?

要約

最近、大規模な言語モデル(LLMS)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨の有望なツールとして浮上しています。
順次推奨シナリオの下で、LLMベースの推奨事項(LLM4REC)モデルのトレーニングと評価の現在の慣行にもかかわらず、これらのモデルがユーザーのアイテムインタラクションシーケンスに固有のシーケンシャル情報を理解しているかどうかは、ほとんど見落とされていることがわかりました。
この論文では、最初に一連の実験を通して、既存のLLM4RECモデルがトレーニングと推論中に連続した情報を完全にキャプチャしないことを示します。
次に、LLM-SRECと呼ばれるシンプルで効果的なLLMベースのシーケンシャル推奨を提案します。これは、事前に訓練されたCF-SRECモデルから抽出されたユーザー表現をLLMSに抽出することにより、LLMSへのシーケンシャル情報の統合を強化する方法です。
当社の広範な実験は、LLM-SRECがユーザーのアイテムの相互作用シーケンスを理解するLLMSの能力を高め、最終的に推奨パフォーマンスの向上につながることを示しています。
さらに、LLMの微調整を必要とする既存のLLM4RECモデルとは異なり、LLM-SRECは、いくつかの軽量MLPのみをトレーニングすることで最先端のパフォーマンスを実現し、実際のアプリケーションでの実用性を強調します。
私たちのコードは、https://github.com/sein-kim/llm-srecで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have recently emerged as promising tools for recommendation thanks to their advanced textual understanding ability and context-awareness. Despite the current practice of training and evaluating LLM-based recommendation (LLM4Rec) models under a sequential recommendation scenario, we found that whether these models understand the sequential information inherent in users’ item interaction sequences has been largely overlooked. In this paper, we first demonstrate through a series of experiments that existing LLM4Rec models do not fully capture sequential information both during training and inference. Then, we propose a simple yet effective LLM-based sequential recommender, called LLM-SRec, a method that enhances the integration of sequential information into LLMs by distilling the user representations extracted from a pre-trained CF-SRec model into LLMs. Our extensive experiments show that LLM-SRec enhances LLMs’ ability to understand users’ item interaction sequences, ultimately leading to improved recommendation performance. Furthermore, unlike existing LLM4Rec models that require fine-tuning of LLMs, LLM-SRec achieves state-of-the-art performance by training only a few lightweight MLPs, highlighting its practicality in real-world applications. Our code is available at https://github.com/Sein-Kim/LLM-SRec.

arxiv情報

著者 Sein Kim,Hongseok Kang,Kibum Kim,Jiwan Kim,Donghyun Kim,Minchul Yang,Kwangjin Oh,Julian McAuley,Chanyoung Park
発行日 2025-02-19 17:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? はコメントを受け付けていません

How Do LLMs Perform Two-Hop Reasoning in Context?

要約

「ソクラテスは人間です。
すべての人間は致命的です。
したがって、ソクラテスは致命的です。」
この古典的な例は、2つのホップの推論を示しており、結論は2つの接続された施設から論理的に続きます。
トランスベースの大手言語モデル(LLMS)は2ホップの推論を行うことができますが、気を散らす施設に直面した場合、ランダムな推測に崩壊する傾向があります。
基礎となるメカニズムを理解するために、合成2ホップの推論タスクで3層トランスを訓練します。
トレーニングダイナミクスは2つの段階を示しています。3層トランスがLLMSのようなランダム推測を実行する遅い学習フェーズ、続いて急激な位相遷移が続き、3層トランスが突然100%$の精度に達します。
リバースエンジニアリングを通じて、モデルが最初に気晴らしの間でランダムに推測することを学習する方法と、最終的に気晴らしを無視することを学ぶ方法についての内部メカニズムを説明します。
さらに、トランスのトレーニングダイナミクスに対するメカニズムの因果関係をサポートする3パラメーターモデルを提案します。
最後に、LLMの実験は、発見されたメカニズムがスケール全体で一般化することを示唆しています。
私たちの方法論は、LLMの科学的理解のための新しい視点を提供し、私たちの調査結果は、トレーニング中に推論がどのように現れるかについての新しい洞察を提供します。

要約(オリジナル)

‘Socrates is human. All humans are mortal. Therefore, Socrates is mortal.’ This classical example demonstrates two-hop reasoning, where a conclusion logically follows from two connected premises. While transformer-based Large Language Models (LLMs) can make two-hop reasoning, they tend to collapse to random guessing when faced with distracting premises. To understand the underlying mechanism, we train a three-layer transformer on synthetic two-hop reasoning tasks. The training dynamics show two stages: a slow learning phase, where the 3-layer transformer performs random guessing like LLMs, followed by an abrupt phase transitions, where the 3-layer transformer suddenly reaches $100%$ accuracy. Through reverse engineering, we explain the inner mechanisms for how models learn to randomly guess between distractions initially, and how they learn to ignore distractions eventually. We further propose a three-parameter model that supports the causal claims for the mechanisms to the training dynamics of the transformer. Finally, experiments on LLMs suggest that the discovered mechanisms generalize across scales. Our methodologies provide new perspectives for scientific understandings of LLMs and our findings provide new insights into how reasoning emerges during training.

arxiv情報

著者 Tianyu Guo,Hanlin Zhu,Ruiqi Zhang,Jiantao Jiao,Song Mei,Michael I. Jordan,Stuart Russell
発行日 2025-02-19 17:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How Do LLMs Perform Two-Hop Reasoning in Context? はコメントを受け付けていません

Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review

要約

推論能力は通常、数千億のパラメーターを備えた大規模な言語モデル(LLMS)に現れますが、最近の研究では、商用LMSからの知識蒸留(KD)を通じて小規模なオープンソースモデルの改善に焦点を当てています。
ただし、これらの研究の多くは、正解と間違いの背後にある理由の両方を理解することを含む、自然な人間の学習プロセスとは異なり、単一のLLMからの反応のみに金の根拠として依存しています。
この論文では、ピアレビュー(公正)アプローチを介して新しい断層を意識した蒸留を紹介します:1)教師から理論的根拠を取得する代わりに、私たちの方法は、教師に学生の間違いを特定して説明し、カスタマイズされた指導学習データを提供するよう求めます。
2)教師LLMS間でシミュレートされたピアレビュープロセスを設計します。これは、受け入れのしきい値を超える生成された理論的根拠のみを選択します。
これにより、教師が欠陥のある理論的根拠で正しく推測する可能性が低くなり、教育データの品質が向上します。
数学的、常識的、論理的な推論タスクに関する包括的な実験と分析は、私たちの方法の有効性を示しています。

要約(オリジナル)

While reasoning capabilities typically emerge in large language models (LLMs) with tens of billions of parameters, recent research focuses on improving smaller open-source models through knowledge distillation (KD) from commercial LLMs. However, many of these studies rely solely on responses from a single LLM as the gold rationale, unlike the natural human learning process, which involves understanding both the correct answers and the reasons behind mistakes. In this paper, we introduce a novel Fault-Aware DistIllation via Peer-Review (FAIR) approach: 1) Instead of merely obtaining rationales from teachers, our method asks teachers to identify and explain the student’s mistakes, providing customized instruction learning data. 2) We design a simulated peer-review process between teacher LLMs, which selects only the generated rationales above the acceptance threshold. This reduces the chance of teachers guessing correctly with flawed rationale, improving instructional data quality. Comprehensive experiments and analysis on mathematical, commonsense, and logical reasoning tasks demonstrate the effectiveness of our method.

arxiv情報

著者 Zhuochun Li,Yuelyu Ji,Rui Meng,Daqing He
発行日 2025-02-19 18:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review はコメントを受け付けていません

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

要約

トレーニングプロセス報酬モデル(PRMS)の現在のアプローチでは、事前定義されたプレースホルダートークンを使用したり、推論ステップの長さを固定サイズに設定するなど、ルールベースの手法を使用して、応答を複数の推論ステップに分割します。
これらのアプローチは、特定の単語が通常、テキストの真の決定ポイントをマークしないという事実を見落としています。
これに対処するために、Adaptivestepを提案します。これは、次の単語を予測するというモデルの自信に基づいて推論ステップを分割する方法です。
この分割方法は、各ステップでより多くの意思決定情報を提供し、報酬モデル学習などの下流タスクを強化します。
さらに、私たちの方法では手動注釈は必要ありません。
数学的推論とコード生成タスクにおけるAdaptivestepトレーニングを受けたPRMを使用した実験を通じて、その有効性を実証します。
実験結果は、結果のPRMが最先端のベストNパフォーマンスを達成し、トークンレベルの価値誘導デコードで貪欲な検索戦略を上回り、既存のオープンソースと比較して建設コストを30%以上削減することを示しています。
PRMS。
さらに、PRMのパフォーマンス、転送可能性、および一般化機能に関する徹底的な分析とケーススタディを提供します。

要約(オリジナル)

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step’s length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model’s confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM’s performance, transferability, and generalization capabilities.

arxiv情報

著者 Yuliang Liu,Junjie Lu,Zhaoling Chen,Chaofeng Qu,Jason Klein Liu,Chonghan Liu,Zefan Cai,Yunhui Xia,Li Zhao,Jiang Bian,Chuheng Zhang,Wei Shen,Zhouhan Lin
発行日 2025-02-19 18:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence はコメントを受け付けていません

Why Safeguarded Ships Run Aground? Aligned Large Language Models’ Safety Mechanisms Tend to Be Anchored in The Template Region

要約

大規模な言語モデル(LLMS)の安全性の配置は脆弱なままです。なぜなら、その初期の動作は比較的単純な攻撃によっても簡単に投獄される可能性があるためです。
入力命令と初期モデル出力の間に固定テンプレートを埋めることは、既存のLLMの一般的な慣行であるため、このテンプレートは脆弱性の背後にある重要な要素であると仮定します。LLMSの安全関連の意思決定は、集計情報からの集計情報に依存しています。
これらのモデルの安全行動に大きく影響するテンプレート領域。
この問題は、テンプレートアンカーの安全アライメントと呼びます。
このホワイトペーパーでは、広範な実験を実施し、テンプレートアンカーの安全アライメントがさまざまな整列LLMに広がっていることを確認します。
私たちの機械的分析は、推論時の脱獄攻撃に遭遇したときのモデルの感受性にそれがどのようにつながるかを示しています。
さらに、テンプレート領域からの安全性メカニズムの分離が、脱獄攻撃に対する脆弱性を緩和することに有望であることを示しています。
将来の研究では、テンプレート領域への依存を減らす、より堅牢な安全アライメント技術を開発することを奨励しています。

要約(オリジナル)

The safety alignment of large language models (LLMs) remains vulnerable, as their initial behavior can be easily jailbroken by even relatively simple attacks. Since infilling a fixed template between the input instruction and initial model output is a common practice for existing LLMs, we hypothesize that this template is a key factor behind their vulnerabilities: LLMs’ safety-related decision-making overly relies on the aggregated information from the template region, which largely influences these models’ safety behavior. We refer to this issue as template-anchored safety alignment. In this paper, we conduct extensive experiments and verify that template-anchored safety alignment is widespread across various aligned LLMs. Our mechanistic analyses demonstrate how it leads to models’ susceptibility when encountering inference-time jailbreak attacks. Furthermore, we show that detaching safety mechanisms from the template region is promising in mitigating vulnerabilities to jailbreak attacks. We encourage future research to develop more robust safety alignment techniques that reduce reliance on the template region.

arxiv情報

著者 Chak Tou Leong,Qingyu Yin,Jian Wang,Wenjie Li
発行日 2025-02-19 18:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Why Safeguarded Ships Run Aground? Aligned Large Language Models’ Safety Mechanisms Tend to Be Anchored in The Template Region はコメントを受け付けていません

Neurosymbolic artificial intelligence via large language models and coherence-driven inference

要約

アルゴリズムを考案して、コヒーレンス駆動型の推論をサポートするグラフを客観的にインスタンス化する命題セットを生成します。
次に、大規模な言語モデル(LLM)の能力をベンチマークし、自然言語で表現された命題の(単純な変換)命題からコヒーレンスグラフを再構築し、単一のプロンプトから推論に最適化されたモデルまでの有望な結果をベンチマークします。
コヒーレンス駆動型の推論を、ニューラルモデルによる一貫性評価と組み合わせることで、機械認知の最新技術を進めることができます。

要約(オリジナル)

We devise an algorithm to generate sets of propositions that objectively instantiate graphs that support coherence-driven inference. We then benchmark the ability of large language models (LLMs) to reconstruct coherence graphs from (a straightforward transformation of) propositions expressed in natural language, with promising results from a single prompt to models optimized for reasoning. Combining coherence-driven inference with consistency evaluations by neural models may advance the state of the art in machine cognition.

arxiv情報

著者 Steve Huntsman,Jewell Thomas
発行日 2025-02-19 18:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Neurosymbolic artificial intelligence via large language models and coherence-driven inference はコメントを受け付けていません

RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision

要約

検索された生成(RAG)は、知識集約型のタスクの大きな可能性を示していますが、その従来のアーキテクチャは静的検索に依存しており、連続した情報を求める必要がある複雑な質問に対する有効性を制限しています。
エージェントの推論と検索はより適応的なアプローチを提供しますが、ほとんどの既存の方法は迅速なエンジニアリングに大きく依存しています。
この作業では、各検索ステップで微調整されたプロセス監督を通じて情報を求めるエージェントを強化する統一された最適化フレームワークであるRag-Gymを紹介します。
また、Rag-Gymフレームワーク内の回答推論と検索クエリの生成を相乗化する新しいエージェントアーキテクチャである研究を提案します。
4つの挑戦的なデータセットでの実験は、Rag-Gymがさまざまなエージェントアーキテクチャで最大25.6 \%のパフォーマンスを改善し、既存のベースラインを一貫して優先する研究を示しています。
さらなる分析では、プロセス報酬裁判官としての高度なLLMの有効性と、異なるLLMの検証因子としての訓練された報酬モデルの移転性を強調しています。
さらに、エージェントラグのトレーニングと推論のスケーリング特性を調べます。
プロジェクトホームページは、https://rag-gym.github.io/で入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) has shown great potential for knowledge-intensive tasks, but its traditional architectures rely on static retrieval, limiting their effectiveness for complex questions that require sequential information-seeking. While agentic reasoning and search offer a more adaptive approach, most existing methods depend heavily on prompt engineering. In this work, we introduce RAG-Gym, a unified optimization framework that enhances information-seeking agents through fine-grained process supervision at each search step. We also propose ReSearch, a novel agent architecture that synergizes answer reasoning and search query generation within the RAG-Gym framework. Experiments on four challenging datasets show that RAG-Gym improves performance by up to 25.6\% across various agent architectures, with ReSearch consistently outperforming existing baselines. Further analysis highlights the effectiveness of advanced LLMs as process reward judges and the transferability of trained reward models as verifiers for different LLMs. Additionally, we examine the scaling properties of training and inference in agentic RAG. The project homepage is available at https://rag-gym.github.io/.

arxiv情報

著者 Guangzhi Xiong,Qiao Jin,Xiao Wang,Yin Fang,Haolin Liu,Yifan Yang,Fangyuan Chen,Zhixing Song,Dengyu Wang,Minjia Zhang,Zhiyong Lu,Aidong Zhang
発行日 2025-02-19 18:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision はコメントを受け付けていません