Identifiable Multi-View Causal Discovery Without Non-Gaussianity

要約

マルチビュー構造方程式モデル(SEM)のフレームワークにおける線形因果発見に対する新しいアプローチを提案します。
提案されたモデルは、見解よりも多様性の多様性を想定して、より広く適用できるようにすることにより、非ガウス障害のよく知られている仮定を緩和します。
モデルのすべてのパラメーターの識別可能性が、非環境である以外のSEMの構造に関するさらなる仮定がないことを証明します。
さらに、マルチビュー独立コンポーネント分析(ICA)の最近の進歩に基づいて、推定アルゴリズムを提案します。
提案された方法論は、実際のニューロイメージングデータに関するシミュレーションとアプリケーションを通じて検証され、脳領域間の因果グラフの推定が可能になります。

要約(オリジナル)

We propose a novel approach to linear causal discovery in the framework of multi-view Structural Equation Models (SEM). Our proposed model relaxes the well-known assumption of non-Gaussian disturbances by alternatively assuming diversity of variances over views, making it more broadly applicable. We prove the identifiability of all the parameters of the model without any further assumptions on the structure of the SEM other than it being acyclic. We further propose an estimation algorithm based on recent advances in multi-view Independent Component Analysis (ICA). The proposed methodology is validated through simulations and application on real neuroimaging data, where it enables the estimation of causal graphs between brain regions.

arxiv情報

著者 Ambroise Heurtebise,Omar Chehab,Pierre Ablin,Alexandre Gramfort,Aapo Hyvärinen
発行日 2025-02-28 17:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 05C82, cs.LG, I.2.6, stat.ML | Identifiable Multi-View Causal Discovery Without Non-Gaussianity はコメントを受け付けていません

Reservoir Computing Benchmarks: a tutorial review and critique

要約

リザーバーコンピューティングは、再発性ニューラルネットワークや物理材料など、さまざまな異なる基質で計算を実行するための型破りな計算モデルです。
このメソッドは「ブラックボックス」アプローチを採用し、構築されたシステムの出力のみをトレーニングします。
そのため、これらのシステムの計算能力を評価することは困難です。
貯水池コンピューティングの分野で使用される評価方法をレビューし、批判します。
ベンチマークタスクの分類を紹介します。
貯水池のコンピューティングに適用される文献からのベンチマークの複数の例を確認し、それらの強みと欠点に注意します。
ベンチマークとその使用を貯水池コンピューティングコミュニティの利益のために改善する方法を提案します。

要約(オリジナル)

Reservoir Computing is an Unconventional Computation model to perform computation on various different substrates, such as recurrent neural networks or physical materials. The method takes a ‘black-box’ approach, training only the outputs of the system it is built on. As such, evaluating the computational capacity of these systems can be challenging. We review and critique the evaluation methods used in the field of reservoir computing. We introduce a categorisation of benchmark tasks. We review multiple examples of benchmarks from the literature as applied to reservoir computing, and note their strengths and shortcomings. We suggest ways in which benchmarks and their uses may be improved to the benefit of the reservoir computing community.

arxiv情報

著者 Chester Wringe,Martin Trefzer,Susan Stepney
発行日 2025-02-28 17:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG, cs.NE | Reservoir Computing Benchmarks: a tutorial review and critique はコメントを受け付けていません

Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks

要約

大規模な機械学習モデルの帰納的バイアスと一般化特性は、トレーニングに使用される最適化アルゴリズムの副産物です。
とりわけ、ランダム初期化、学習率、および早期停止のスケールはすべて、確率的勾配降下または関連するアルゴリズムによって学習したモデルの品質に重要な影響を及ぼします。
これらの現象を理解するために、大規模な2層ニューラルネットワークのトレーニングダイナミクスを研究します。
このダイナミクスの漸近高次元特性評価を得るために、非平衡統計物理学(動的平均場理論)の確立された手法を使用します。
この特性評価は、隠されたニューロンの非線形性のガウス近似に適用され、実際のニューラルネットワークモデルの挙動を経験的にキャプチャします。
私たちの分析は、トレーニングダイナミクスにおけるいくつかの興味深い新しい現象を明らかにします。$(i)$ガウス/ラデマッハの複雑さの成長に関連する遅い時間スケールの出現。
$(ii)$結果として、小さな複雑さに対するアルゴリズム誘導バイアス。
$(iii)$機能学習と過剰適合の間の時間スケールの分離。
$(iv)$テストエラーの非モノトーン動作と、それに応じて、大規模な時期に「フィーチャー未学習」フェーズ。

要約(オリジナル)

The inductive bias and generalization properties of large machine learning models are — to a substantial extent — a byproduct of the optimization algorithm used for training. Among others, the scale of the random initialization, the learning rate, and early stopping all have crucial impact on the quality of the model learnt by stochastic gradient descent or related algorithms. In order to understand these phenomena, we study the training dynamics of large two-layer neural networks. We use a well-established technique from non-equilibrium statistical physics (dynamical mean field theory) to obtain an asymptotic high-dimensional characterization of this dynamics. This characterization applies to a Gaussian approximation of the hidden neurons non-linearity, and empirically captures well the behavior of actual neural network models. Our analysis uncovers several interesting new phenomena in the training dynamics: $(i)$ The emergence of a slow time scale associated with the growth in Gaussian/Rademacher complexity; $(ii)$ As a consequence, algorithmic inductive bias towards small complexity, but only if the initialization has small enough complexity; $(iii)$ A separation of time scales between feature learning and overfitting; $(iv)$ A non-monotone behavior of the test error and, correspondingly, a `feature unlearning’ phase at large times.

arxiv情報

著者 Andrea Montanari,Pierfrancesco Urbani
発行日 2025-02-28 17:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML | Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks はコメントを受け付けていません

Does Generation Require Memorization? Creative Diffusion Models using Ambient Diffusion

要約

特にトレーニングセットが小さい場合、最先端の拡散モデリングパラダイムがトレーニングセットを記憶するモデルにつながるという強力な経験的証拠があります。
暗記の問題を軽減するための以前の方法は、多くの場合、画質の低下につながります。
強力で創造的な生成モデル、つまり高生成品質と低い暗記を達成するモデルを取得することは可能ですか?
現在の悲観的な結果の風景にもかかわらず、私たちは忠実さと暗記の間のトレードオフを推進する際に大きな進歩を遂げています。
最初に、拡散モデルの暗記が低ノイズスケールで問題を除去するためにのみ必要であるという理論的証拠を提供します(通常、高周波の詳細の生成に使用されます)。
この理論的洞察を使用して、大きなノイズスケールでノイズの多いデータを使用して拡散モデルを訓練するためのシンプルで原則的な方法を提案します。
私たちの方法は、画質を低下させることなく、テキスト条件と無条件の両方のモデル、およびさまざまなデータ可用性設定について、暗記を大幅に削減することを示しています。

要約(オリジナル)

There is strong empirical evidence that the state-of-the-art diffusion modeling paradigm leads to models that memorize the training set, especially when the training set is small. Prior methods to mitigate the memorization problem often lead to a decrease in image quality. Is it possible to obtain strong and creative generative models, i.e., models that achieve high generation quality and low memorization? Despite the current pessimistic landscape of results, we make significant progress in pushing the trade-off between fidelity and memorization. We first provide theoretical evidence that memorization in diffusion models is only necessary for denoising problems at low noise scales (usually used in generating high-frequency details). Using this theoretical insight, we propose a simple, principled method to train the diffusion models using noisy data at large noise scales. We show that our method significantly reduces memorization without decreasing the image quality, for both text-conditional and unconditional models and for a variety of data availability settings.

arxiv情報

著者 Kulin Shah,Alkis Kalavasis,Adam R. Klivans,Giannis Daras
発行日 2025-02-28 17:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Does Generation Require Memorization? Creative Diffusion Models using Ambient Diffusion はコメントを受け付けていません

Controlled Model Debiasing through Minimal and Interpretable Updates

要約

公正な機械学習モデルを学習するための従来のアプローチでは、一般的に既存の以前のモデルを考慮せずに、ゼロから再構築モデルをゼロから再構築する必要があります。
モデルを頻繁に再試行する必要があるコンテキストでは、これによりモデルの更新が一貫性のない更新や、冗長で費用のかかる検証テストにつながる可能性があります。
この制限に対処するために、2つのDesiderataに依存する新しい監督された学習タスクである制御されたモデルdebiasingの概念を紹介します。新しい公正モデルと既存のモデルの違いは(i)解釈可能であり、(ii)最小限である必要があります。
この新しい問題に理論的保証を提供した後、アルゴリズムの公平性に関する新しいアルゴリズムを導入します。これは、モデルに依存しており、テスト時に機密属性を必要としません。
さらに、私たちのアルゴリズムは、偏った予測と紛失した予測との間の最小限の解釈可能な変更を強制するように明示的に設計されています。これは、高得点アプリケーションでは非常に望ましいものの、公平性文献の明示的な目的としてめったに優先されることはありません。
私たちのアプローチは、概念ベースのアーキテクチャと敵対学習を組み合わせており、経験的な結果を通じて、最小限の解釈可能な予測の変更を実行しながら、最先端の紛争方法に匹敵するパフォーマンスを達成することを実証します。

要約(オリジナル)

Traditional approaches to learning fair machine learning models often require rebuilding models from scratch, generally without accounting for potentially existing previous models. In a context where models need to be retrained frequently, this can lead to inconsistent model updates, as well as redundant and costly validation testing. To address this limitation, we introduce the notion of controlled model debiasing, a novel supervised learning task relying on two desiderata: that the differences between new fair model and the existing one should be (i) interpretable and (ii) minimal. After providing theoretical guarantees to this new problem, we introduce a novel algorithm for algorithmic fairness, COMMOD, that is both model-agnostic and does not require the sensitive attribute at test time. In addition, our algorithm is explicitly designed to enforce minimal and interpretable changes between biased and debiased predictions -a property that, while highly desirable in high-stakes applications, is rarely prioritized as an explicit objective in fairness literature. Our approach combines a concept-based architecture and adversarial learning and we demonstrate through empirical results that it achieves comparable performance to state-of-the-art debiasing methods while performing minimal and interpretable prediction changes.

arxiv情報

著者 Federico Di Gennaro,Thibault Laugel,Vincent Grari,Marcin Detyniecki
発行日 2025-02-28 18:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Controlled Model Debiasing through Minimal and Interpretable Updates はコメントを受け付けていません

Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models

要約

大規模な言語モデル(LLMS)の効率的な実世界の展開は、長い出力を処理および生成するためにキー価値(kV)キャッシングに依存しており、繰り返し計算の必要性を減らします。
大きなコンテキストの場合、キー価値のキャッシュは、各トークンとレイヤーのベクトル表現を保存するため、デバイスメモリのギガバイトを数十ギガバイトにすることができます。
最近の研究では、キャッシュされたベクトルが量子化、剪定、またはマージによって圧縮される可能性があることが示されていますが、これらの手法はしばしばより高い圧縮速度に向けて質を損ないます。
この作業では、2つの観測値を活用することにより、キーと値の圧縮を改善することを目指しています。1)キーと異なるレイヤーにわたる値の固有の依存関係、および2)内部ネットワーク状態の高圧縮メカニズム。
Aqua-KVは、キーと値の間の既存の依存関係を活用するためにコンパクトアダプターに依存するキー価値キャッシュの適応量子化であり、予測できない情報を「最適に」圧縮することを目的としています。
Aqua-KVは、最先端のLLMファミリーの高精度を維持しながら、圧縮率を大幅に改善します。
LLAMA 3.2 LLMSでは、1ドル未満の値あたり2〜2.5ビットでほぼ紛れもない推論を達成し、困惑とロングベンチスコアで$ 1 \%$の相対エラーを達成しています。
Aqua-KVは、ワンショット、シンプル、効率的です。70Bモデルであっても、1〜6時間以内に1つのGPUで調整できます。

要約(オリジナル)

Efficient real-world deployments of large language models (LLMs) rely on Key-Value (KV) caching for processing and generating long outputs, reducing the need for repetitive computation. For large contexts, Key-Value caches can take up tens of gigabytes of device memory, as they store vector representations for each token and layer. Recent work has shown that the cached vectors can be compressed through quantization, pruning or merging, but these techniques often compromise quality towards higher compression rates. In this work, we aim to improve Key & Value compression by exploiting two observations: 1) the inherent dependencies between keys and values across different layers, and 2) high-compression mechanisms for internal network states. We propose AQUA-KV, an adaptive quantization for Key-Value caches that relies on compact adapters to exploit existing dependencies between Keys and Values, and aims to ‘optimally’ compress the information that cannot be predicted. AQUA-KV significantly improves compression rates, while maintaining high accuracy on state-of-the-art LLM families. On Llama 3.2 LLMs, we achieve near-lossless inference at 2-2.5 bits per value with under $1\%$ relative error in perplexity and LongBench scores. AQUA-KV is one-shot, simple, and efficient: it can be calibrated on a single GPU within 1-6 hours, even for 70B models.

arxiv情報

著者 Alina Shutova,Vladimir Malinovskii,Vage Egiazarian,Denis Kuznedelev,Denis Mazur,Nikita Surkov,Ivan Ermakov,Dan Alistarh
発行日 2025-02-28 18:04:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models はコメントを受け付けていません

Enabling AutoML for Zero-Touch Network Security: Use-Case Driven Analysis

要約

ゼロタッチネットワーク(ZTNS)は、完全に自動化されたインテリジェントなネットワーク管理への最先端のパラダイムシフトを表し、次世代(6G)ネットワークの複雑さ、スケール、動的性質を管理するために必要な自動化とインテリジェンスを可能にします。
ZTNSは、人工知能(AI)および機械学習(ML)を活用して、運用効率を高め、インテリジェントな意思決定をサポートし、効果的なリソース割り当てを確保します。
ただし、ZTNSの実装は、最大限の可能性を達成するために解決する必要があるセキュリティの課題の対象となります。
特に、AI/MLベースのセキュリティメカニズムの開発における人間の専門知識の必要性と、AI/MLモデルを対象とする敵対的攻撃の脅威という2つの重要な課題が生じます。
この調査論文では、ZTNSの現在のセキュリティ問題の包括的なレビューを提供し、最小限の人間の介入を必要とし、AI/MLモデル自体を保護する高度なAI/MLベースのセキュリティメカニズムの必要性を強調しています。
さらに、ZTNS向けの堅牢なセキュリティソリューションの開発における自動化されたML(AutomL)テクノロジーの可能性を調査します。
ケーススタディを通じて、自律的な侵入検知システムの開発や敵対的なML(AML)攻撃と戦う戦略など、従来の脅威とAI/ML固有の脅威の両方に対してZTNを保護するための実用的なアプローチを説明します。
この論文は、ZTNセキュリティアプローチの開発に関する将来の研究の方向性についての議論で締めくくります。

要約(オリジナル)

Zero-Touch Networks (ZTNs) represent a state-of-the-art paradigm shift towards fully automated and intelligent network management, enabling the automation and intelligence required to manage the complexity, scale, and dynamic nature of next-generation (6G) networks. ZTNs leverage Artificial Intelligence (AI) and Machine Learning (ML) to enhance operational efficiency, support intelligent decision-making, and ensure effective resource allocation. However, the implementation of ZTNs is subject to security challenges that need to be resolved to achieve their full potential. In particular, two critical challenges arise: the need for human expertise in developing AI/ML-based security mechanisms, and the threat of adversarial attacks targeting AI/ML models. In this survey paper, we provide a comprehensive review of current security issues in ZTNs, emphasizing the need for advanced AI/ML-based security mechanisms that require minimal human intervention and protect AI/ML models themselves. Furthermore, we explore the potential of Automated ML (AutoML) technologies in developing robust security solutions for ZTNs. Through case studies, we illustrate practical approaches to securing ZTNs against both conventional and AI/ML-specific threats, including the development of autonomous intrusion detection systems and strategies to combat Adversarial ML (AML) attacks. The paper concludes with a discussion of the future research directions for the development of ZTN security approaches.

arxiv情報

著者 Li Yang,Mirna El Rajab,Abdallah Shami,Sami Muhaidat
発行日 2025-02-28 18:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 90C31, cs.CR, cs.LG, cs.NI, I.2.1 | Enabling AutoML for Zero-Touch Network Security: Use-Case Driven Analysis はコメントを受け付けていません

Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback

要約

人間のフィードバックから学ぶことは、大規模な言語モデル(LLM)などの生成モデルを調整する上で重要な役割を果たします。
ただし、このアプローチの有効性は敵の影響を受ける可能性があります。敵は、望ましくないまたは有害な方向に出力を操作するために誤解を招く好みを意図的に提供する可能性があります。
この課題に取り組むために、この問題ドメイン – 敵対的なフィードバックを備えたこの問題の決闘の決闘盗賊の特定のモデルを研究します。そこでは、真の優先ラベルを敵によってひっくり返すことができます。
不確実性加重最尤推定に基づいた、堅牢なコンテキストデュエルバンディット(RCDB)を提案します。
私たちのアルゴリズムは$ \ Tilde O(d \ sqrt {t}/\ kappa+dc/\ kappa)$後悔を達成します。
また、後悔の境界がほぼ最適であることを示す下限を証明します。
私たちの仕事は、敵対的な選好フィードバックの存在下で、決闘の盗賊に対してほぼミニマックスの最適後悔を達成した最初の仕事です。
さらに、シグモイドリンク関数については、リンク関数の導関数を推定するための洗練された方法を介して、局所導関数の最尤推定(MLE)分析への影響を考慮した新しいアルゴリズムを開発します。
この方法は、$ t $に関して主要な用語での$ \ kappa $の依存を排除​​するのに役立ちます。これにより、パラメーター半径$ b $の指数関数的依存性が多項式依存性に減少します。

要約(オリジナル)

Learning from human feedback plays an important role in aligning generative models, such as large language models (LLM). However, the effectiveness of this approach can be influenced by adversaries, who may intentionally provide misleading preferences to manipulate the output in an undesirable or harmful direction. To tackle this challenge, we study a specific model within this problem domain–contextual dueling bandits with adversarial feedback, where the true preference label can be flipped by an adversary. We propose an algorithm namely robust contextual dueling bandits (RCDB), which is based on uncertainty-weighted maximum likelihood estimation. Our algorithm achieves an $\tilde O(d\sqrt{T}/\kappa+dC/\kappa)$ regret bound, where $T$ is the number of rounds, $d$ is the dimension of the context, $\kappa$ is the lower bound of the derivative of the link function, and $ 0 \le C \le T$ is the total number of adversarial feedback. We also prove a lower bound to show that our regret bound is nearly optimal, both in scenarios with and without ($C=0$) adversarial feedback. Our work is the first to achieve nearly minimax optimal regret for dueling bandits in the presence of adversarial preference feedback. Additionally, for the sigmoid link function, we develop a novel algorithm that takes into account the effect of local derivatives into maximum likelihood estimation (MLE) analysis through a refined method for estimating the link function’s derivative. This method helps us to eliminate the $\kappa$ dependence in the leading term with respect to $T$, which reduces the exponential dependence on the parameter radius $B$ to a polynomial dependence.

arxiv情報

著者 Qiwei Di,Jiafan He,Quanquan Gu
発行日 2025-02-28 18:56:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback はコメントを受け付けていません

Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin?

要約

急速な技術の進歩のこの時代に、新しい言語現象が出現するにつれてコミュニケーションが進化し続けています。
これらの中には、アラブのコミュニティの話された方言を表すためにラテン語と数字を取り入れたアラビア語のハイブリッド形式のアラビツィがいます。
Arabiziはソーシャルメディアで広く使用されており、人々が非公式でダイナミックな方法でコミュニケーションをとることができますが、正式な構造の欠如と深く組み込まれた文化的ニュアンスのために、機械翻訳に大きな課題をもたらします。
このケーススタディは、概要の目的でアラビツィを翻訳する必要性の高まりから生じます。
これは、これまでめったに研究されていない複数のアラビア語の方言に焦点を当てて、アラビツィをデコードして翻訳するさまざまなLLMの能力を評価します。
この研究プロジェクトは、人間の評価者と自動メトリックの組み合わせを使用して、アラビツィを現代の標準的なアラビア語と英語の両方に変換する際のモデルのパフォーマンスを調査します。
調査された重要な質問には、どの方言が最も効果的に翻訳されているか、そして英語への翻訳がそれらをアラビア語に超えるかどうかが含まれます。

要約(オリジナル)

In this era of rapid technological advancements, communication continues to evolve as new linguistic phenomena emerge. Among these is Arabizi, a hybrid form of Arabic that incorporates Latin characters and numbers to represent the spoken dialects of Arab communities. Arabizi is widely used on social media and allows people to communicate in an informal and dynamic way, but it poses significant challenges for machine translation due to its lack of formal structure and deeply embedded cultural nuances. This case study arises from a growing need to translate Arabizi for gisting purposes. It evaluates the capacity of different LLMs to decode and translate Arabizi, focusing on multiple Arabic dialects that have rarely been studied up until now. Using a combination of human evaluators and automatic metrics, this research project investigates the model’s performance in translating Arabizi into both Modern Standard Arabic and English. Key questions explored include which dialects are translated most effectively and whether translations into English surpass those into Arabic.

arxiv情報

著者 Perla Al Almaoui,Pierrette Bouillon,Simon Hengchen
発行日 2025-02-28 11:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? はコメントを受け付けていません

Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models

要約

ロングコンテキスト言語モデル(LCLMS)の最近の進歩は、パイプラインを簡素化することにより、検索された生成(RAG)を変換することを約束します。
拡張されたコンテキストウィンドウを使用すると、LCLMSは知識全体のベースを処理し、検索と推論を直接実行できます。これは、コンテキスト内検索および推論として定義する機能です(ICR^2)。
ただし、ロフトのような既存のベンチマークは、過度に簡素化されたコンテキストを提供することにより、LCLMのパフォーマンスを過大評価することがよくあります。
これに対処するために、強力なレトリバーで取得した交絡パッセージを含めることにより、より現実的なシナリオでLCLMを評価するベンチマークであるICR^2を紹介します。
次に、LCLMのパフォーマンスを向上させるための3つの方法を提案します。(1)テイリーブ – ジュンレートの微調整、(2)注意ヘッドを使用してデコード中に長いコンテキストをフィルタリングおよび非ノイズする長いコンテキスト、および(3)世代のヘッドと沿って共同検索ヘッドトレーニングを提案します。
LoftとICR^2での5つのよく知られたLCLMSの評価は、Loftの正確な一致により、Mistral-7B:+17および+15ポイントに適用される最良のアプローチ、およびICR^2でそれぞれ+13および+2ポイントを使用して、それぞれバニララグと監視された微調整と比較して、有意な利益を示しています。
はるかに小さいモデルであるにもかかわらず、ほとんどのタスクでGPT-4-ターボを上回ることさえあります。

要約(オリジナル)

Recent advancements in long-context language models (LCLMs) promise to transform Retrieval-Augmented Generation (RAG) by simplifying pipelines. With their expanded context windows, LCLMs can process entire knowledge bases and perform retrieval and reasoning directly — a capability we define as In-Context Retrieval and Reasoning (ICR^2). However, existing benchmarks like LOFT often overestimate LCLM performance by providing overly simplified contexts. To address this, we introduce ICR^2, a benchmark that evaluates LCLMs in more realistic scenarios by including confounding passages retrieved with strong retrievers. We then propose three methods to enhance LCLM performance: (1) retrieve-then-generate fine-tuning, (2) retrieval-attention-probing, which uses attention heads to filter and de-noise long contexts during decoding, and (3) joint retrieval head training alongside the generation head. Our evaluation of five well-known LCLMs on LOFT and ICR^2 demonstrates significant gains with our best approach applied to Mistral-7B: +17 and +15 points by Exact Match on LOFT, and +13 and +2 points on ICR^2, compared to vanilla RAG and supervised fine-tuning, respectively. It even outperforms GPT-4-Turbo on most tasks despite being a much smaller model.

arxiv情報

著者 Yifu Qiu,Varun Embar,Yizhe Zhang,Navdeep Jaitly,Shay B. Cohen,Benjamin Han
発行日 2025-02-28 11:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models はコメントを受け付けていません