Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

要約

検索拡張生成(RAG)は、LLMコンテキストにドキュメントの検索を可能にして、より正確で関連性のある応答を提供することにより、大規模な言語モデル(LLM)の能力を高めます。
既存のRAGソリューションでは、実質的に異なるコンテンツを持つ複数のドキュメントを取得する必要があるクエリに焦点を当てていません。
このようなクエリは頻繁に発生しますが、これらのドキュメントの埋め込みが埋め込みスペースに遠くにある可能性があり、それらすべてを取得するのが難しくなる可能性があるため、困難です。
このペーパーでは、このギャップに対処するために設計された新しいスキームであるマルチヘッドラグ(MRAG)を紹介します。これは、デコーダー層の代わりにトランスのマルチヘッド注意層のアクティブ化を、マルチアセプタードキュメントを取得するためのキーとして活性化することです。
駆動観察は、さまざまな注意ヘッドがさまざまなデータの側面をキャプチャすることを学ぶことです。
対応するアクティベーションを活用すると、データ項目やクエリのさまざまなファセットを表す埋め込みが生じ、複雑なクエリの検索精度が向上します。
MRAGの有効性を実証するために、評価方法とメトリック、マルチアスペクトデータセット、および実際のユースケースを提供します。
MRAGの設計上の18のラグベースライン、検索成功率の最大20%の経験的改善、および下流のLLM世代の利点を示しています。
MRAGは、既存のRAGフレームワークやベンチマークとシームレスに統合できます。

要約(オリジナル)

Retrieval Augmented Generation (RAG) enhances the abilities of Large Language Models (LLMs) by enabling the retrieval of documents into the LLM context to provide more accurate and relevant responses. Existing RAG solutions do not focus on queries that may require fetching multiple documents with substantially different contents. Such queries occur frequently, but are challenging because the embeddings of these documents may be distant in the embedding space, making it hard to retrieve them all. This paper introduces Multi-Head RAG (MRAG), a novel scheme designed to address this gap with a simple yet powerful idea: leveraging activations of Transformer’s multi-head attention layer, instead of the decoder layer, as keys for fetching multi-aspect documents. The driving observation is that different attention heads learn to capture different data aspects. Harnessing the corresponding activations results in embeddings that represent various facets of data items and queries, improving the retrieval accuracy for complex queries. We provide an evaluation methodology and metrics, multi-aspect datasets, and real-world use cases to demonstrate MRAG’s effectiveness. We show MRAG’s design advantages over 18 RAG baselines, empirical improvements of up to 20% in retrieval success ratios, and benefits for downstream LLM generation. MRAG can be seamlessly integrated with existing RAG frameworks and benchmarks.

arxiv情報

著者 Maciej Besta,Ales Kubicek,Robert Gerstenberger,Marcin Chrapek,Roman Niggli,Patrik Okanovic,Yi Zhu,Patrick Iff,Michal Podstawski,Lucas Weitzendorf,Mingyuan Chi,Joanna Gajda,Piotr Nyczyk,Jürgen Müller,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-06-05 15:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | コメントする

Counterfactual reasoning: an analysis of in-context emergence

要約

大規模なニューラル言語モデル(LMS)は、コンテキスト内学習において顕著なパフォーマンスを示します。パラメーターの更新なしで、飛行機の入力コンテキストを学習し、推論する能力。
この作業は、言語モデルにおけるコンテキスト内の反事実的推論、つまり、仮説シナリオでの変化の結果を予測するためのコンテキスト内の反事実的推論を研究しています。
明確に定義された合成セットアップの研究に焦点を当てています。正確な予測は、事実の観察からの文脈的ノイズの推測とコピーに基づいているノイズ誘導を必要とする線形回帰タスクです。
言語モデルは、この制御されたセットアップで反事実的な推論が可能であることを示し、広範な機能の反事実的推論がコンテキスト内観察の変換に還元できるという洞察を提供します。
変圧器におけるトレーニング前のドライブパフォーマンスにおいて、自己関節、モデルの深さ、およびデータの多様性が見られます。
さらに興味深いことに、私たちの調査結果は回帰タスクを超えて拡張され、変圧器が連続データにノイズ誘導を実行できることを示しており、反事実的なストーリー生成の可能性に関する予備的な証拠を提供します。
私たちのコードは、https://github.com/moxmiller/counterfactual-rasinoning.gitで入手できます。

要約(オリジナル)

Large-scale neural language models (LMs) exhibit remarkable performance in in-context learning: the ability to learn and reason the input context on the fly without parameter update. This work studies in-context counterfactual reasoning in language models, that is, to predict the consequences of changes under hypothetical scenarios. We focus on studying a well-defined synthetic setup: a linear regression task that requires noise abduction, where accurate prediction is based on inferring and copying the contextual noise from factual observations. We show that language models are capable of counterfactual reasoning in this controlled setup and provide insights that counterfactual reasoning for a broad class of functions can be reduced to a transformation on in-context observations; we find self-attention, model depth, and data diversity in pre-training drive performance in Transformers. More interestingly, our findings extend beyond regression tasks and show that Transformers can perform noise abduction on sequential data, providing preliminary evidence on the potential for counterfactual story generation. Our code is available under https://github.com/moXmiller/counterfactual-reasoning.git .

arxiv情報

著者 Moritz Miller,Bernhard Schölkopf,Siyuan Guo
発行日 2025-06-05 16:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.ST, stat.TH | コメントする

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

要約

機能の属性方法は、モデルの決定に影響を与える入力機能を識別することにより、深いニューラルネットワークの透明性を改善することを目的としています。
ピクセルベースのヒートマップは、画像、オーディオ表現、ボリュームなどの高次元の入力に特徴を帰属させる標準となっています。
直感的で便利ですが、これらのピクセルベースの属性は、データの基礎となる構造をキャプチャできません。
さらに、コンピューティング属性のドメインの選択はしばしば見落とされています。
この作業は、ウェーブレットドメインが有益で意味のある帰属を可能にすることを示しています。
入力ディメンションを処理し、属性を特徴とする統一アプローチを提供します。
私たちの方法であるウェーブレット属性法(WAM)は、ウェーブレット係数の空間的およびスケール局在化された特性を活用して、モデルの意思決定プロセスの場所と内容の両方をキャプチャする説明を提供します。
WAMは、オーディオ、画像、ボリュームなど、複数のモダリティにわたって既存の勾配ベースのメソッドと一致したり、アウトパフォームしたりすることを示します。
さらに、Modelの堅牢性と透明性のより広い側面を備えたWAMブリッジズの帰属方法について説明します。
プロジェクトページ:https://gabrielkasmi.github.io/wam/

要約(オリジナル)

Feature attribution methods aim to improve the transparency of deep neural networks by identifying the input features that influence a model’s decision. Pixel-based heatmaps have become the standard for attributing features to high-dimensional inputs, such as images, audio representations, and volumes. While intuitive and convenient, these pixel-based attributions fail to capture the underlying structure of the data. Moreover, the choice of domain for computing attributions has often been overlooked. This work demonstrates that the wavelet domain allows for informative and meaningful attributions. It handles any input dimension and offers a unified approach to feature attribution. Our method, the Wavelet Attribution Method (WAM), leverages the spatial and scale-localized properties of wavelet coefficients to provide explanations that capture both the where and what of a model’s decision-making process. We show that WAM quantitatively matches or outperforms existing gradient-based methods across multiple modalities, including audio, images, and volumes. Additionally, we discuss how WAM bridges attribution with broader aspects of model robustness and transparency. Project page: https://gabrielkasmi.github.io/wam/

arxiv情報

著者 Gabriel Kasmi,Amandine Brunetto,Thomas Fel,Jayneel Parekh
発行日 2025-06-05 16:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

Unleashing The Power of Pre-Trained Language Models for Irregularly Sampled Time Series

要約

ChatGPTなどの事前に訓練された言語モデル(PLMS)は、自然言語処理の分野を大幅に進めています。
この進歩は、PLMSの時系列分析への適応を探求する一連の革新的な研究に影響を与え、さまざまな時系列分析タスクに対処する統一された基礎モデルを作成することを目的としています。
ただし、これらの取り組みは、主に定期的にサンプリングされた時系列(RSTS)に焦点を当てており、不均一なサンプリング間隔と一般的な欠落データを特徴とする不規則にサンプリングされた時系列(IST)によってもたらされる固有の課題を無視しています。
このギャップを埋めるために、この作業は、ISTS分析のためのPLMSの可能性を調査するための第一歩を踏み出します。
まず、ISTを表現するためのさまざまな方法の効果を調査し、分析におけるPLMSの有効性を最大化することを目指しています。
さらに、ISTS-PLMという名前の統一されたPLMベースのフレームワークを提案して、多様なISTS分析タスクに対処します。
ISTSでの扱いにくい時間内およびインタータイムシリーズモデリングに取り組むように調整された、新しい時間認識と可変のPLMSを統合します。
最後に、包括的なベンチマークでの広範な実験は、ISTSの構造化された効果的なシリーズベースの表現を利用しているISTS-PLMが、分類、補間、外挿、外挿、少数のショット、ゼロショット学習シナリオなど、分類、補間、外挿、ゼロショット学習など、さまざまな分析タスクにわたって一貫して最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Pre-trained Language Models (PLMs), such as ChatGPT, have significantly advanced the field of natural language processing. This progress has inspired a series of innovative studies that explore the adaptation of PLMs to time series analysis, intending to create a unified foundation model that addresses various time series analytical tasks. However, these efforts predominantly focus on Regularly Sampled Time Series (RSTS), neglecting the unique challenges posed by Irregularly Sampled Time Series (ISTS), which are characterized by uneven sampling intervals and prevalent missing data. To bridge this gap, this work takes the first step in exploring the potential of PLMs for ISTS analysis. We begin by investigating the effect of various methods for representing ISTS, aiming to maximize the efficacy of PLMs in the analysis. Furthermore, we propose a unified PLM-based framework, named ISTS-PLM, to address diverse ISTS analytical tasks. It integrates novel time-aware and variable-aware PLMs tailored to tackle the intractable intra- and inter-time series modeling in ISTS. Finally, extensive experiments on a comprehensive benchmark demonstrate that the ISTS-PLM, utilizing a structured and effective series-based representation for ISTS, consistently achieves state-of-the-art performance across various analytical tasks, such as classification, interpolation, extrapolation, few-shot and zero-shot learning scenarios, spanning scientific domains like healthcare, biomechanics, and climate science.

arxiv情報

著者 Weijia Zhang,Chenlong Yin,Hao Liu,Hui Xiong
発行日 2025-06-05 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP | コメントする

Intentionally Unintentional: GenAI Exceptionalism and the First Amendment

要約

この論文は、GPT-4やGeminiなどの大規模な生成AIモデルからの出力に対して、裁判所が修正第1条の保護を付与すべきであるという仮定に挑戦しています。
これらのモデルは意図性を欠いているため、確立された法的先例の文脈で理解されるように、その出力はスピーチを構成しないため、保護するスピーチはありえないと主張します。
さらに、モデル出力がスピーチではない場合、ユーザーは出力を受信するための修正第1条のスピーチ権を請求することはできません。
また、AIモデルへの修正第1条の権利を拡大することは、アイデアの市場を促進したり、自治の促進、自己表現を促進するなど、言論の自由の基本的な目的に役立たないと主張しています。
実際、AIモデルに最初の修正保護を付与することは、これらの強力な技術を効果的に規制する政府の能力を妨げ、誤報やその他の害の未確認の広がりにつながる可能性があるため、社会にとって有害で​​す。

要約(オリジナル)

This paper challenges the assumption that courts should grant First Amendment protections to outputs from large generative AI models, such as GPT-4 and Gemini. We argue that because these models lack intentionality, their outputs do not constitute speech as understood in the context of established legal precedent, so there can be no speech to protect. Furthermore, if the model outputs are not speech, users cannot claim a First Amendment speech right to receive the outputs. We also argue that extending First Amendment rights to AI models would not serve the fundamental purposes of free speech, such as promoting a marketplace of ideas, facilitating self-governance, or fostering self-expression. In fact, granting First Amendment protections to AI models would be detrimental to society because it would hinder the government’s ability to regulate these powerful technologies effectively, potentially leading to the unchecked spread of misinformation and other harms.

arxiv情報

著者 David Atkinson,Jena D. Hwang,Jacob Morrison
発行日 2025-06-05 16:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | コメントする

LLM-First Search: Self-Guided Exploration of the Solution Space

要約

大規模な言語モデル(LLMS)は、多くの場合、問題解決を検索プロセスとしてフレーミングすることにより、テスト時間計算の増加により、推論と計画の顕著な改善を実証しています。
モンテカルロツリー検索(MCTS)のような方法はいくつかのドメインで効果的であることが証明されていますが、固定探査ハイパーパラメータへの依存により、さまざまな難易度のタスク全体に適応性が制限され、特定の設定では非実用的または高価になります。
この論文では、\ textbf {llm-first search(lfs)}を提案します。これは、自己誘導探索を介して検索プロセスを自律的に制御できるように、事前定義された検索戦略の必要性を削除する、新しい\ textit {llm self-gided search}メソッドです。
LLMは、外部のヒューリスティックまたはハードコードされたポリシーに依存するのではなく、現在の検索パスを追求するか、内部スコアリングメカニズムに基づいて代替ブランチを探索するかを評価します。
これにより、手動のチューニングやタスク固有の適応を必要とせずに、より柔軟でコンテキストに敏感な推論が可能になります。
カウントダウンのLFSを、3つのクラシックに広く使用されている検索アルゴリズム、ツリーオブオブセーブの幅の最初の検索(TOT-BFS)、ベストファースト検索(BESTFS)、およびMCTに対してLFSを評価します。これらは、それぞれが、困難な推論の範囲でSOTA結果を達成するために使用されています。
LFS(1)は、追加のチューニングなしでより挑戦的なタスクでパフォーマンスを向上させることがわかりました。(2)他のメソッドと比較して、特に強力なモデルで駆動される場合、(3)LLMファーストデザインのため、より強力なモデルでより良いスケーリングを行うことがわかりました。
私たちのコードは、\ href {https://github.com/nathanherr/llm-first-search} {llm-first-search}で公開されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable improvements in reasoning and planning through increased test-time compute, often by framing problem-solving as a search process. While methods like Monte Carlo Tree Search (MCTS) have proven effective in some domains, their reliance on fixed exploration hyperparameters limits their adaptability across tasks of varying difficulty, rendering them impractical or expensive in certain settings. In this paper, we propose \textbf{LLM-First Search (LFS)}, a novel \textit{LLM Self-Guided Search} method that removes the need for pre-defined search strategies by empowering the LLM to autonomously control the search process via self-guided exploration. Rather than relying on external heuristics or hardcoded policies, the LLM evaluates whether to pursue the current search path or explore alternative branches based on its internal scoring mechanisms. This enables more flexible and context-sensitive reasoning without requiring manual tuning or task-specific adaptation. We evaluate LFS on Countdown and Sudoku against three classic widely-used search algorithms, Tree-of-Thoughts’ Breadth First Search (ToT-BFS), Best First Search (BestFS), and MCTS, each of which have been used to achieve SotA results on a range of challenging reasoning tasks. We found that LFS (1) performs better on more challenging tasks without additional tuning, (2) is more computationally efficient compared to the other methods, especially when powered by a stronger model, (3) scales better with stronger models, due to its LLM-First design, and (4) scales better with increased compute budget. Our code is publicly available at \href{https://github.com/NathanHerr/LLM-First-Search}{LLM-First-Search}.

arxiv情報

著者 Nathan Herr,Tim Rocktäschel,Roberta Raileanu
発行日 2025-06-05 16:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Mitigating Degree Bias Adaptively with Hard-to-Learn Nodes in Graph Contrastive Learning

要約

グラフニューラルネットワーク(GNNS)は、多くの場合、ノード分類タスクの程度のバイアスに悩まされます。この場合、予測のパフォーマンスは程度が異なるノード間で異なります。
グラフ対照学習(GCL)を採用するいくつかのアプローチが、このバイアスを軽減するために提案されています。
ただし、GCLのすべてのポジティブおよびネガの限られた数のポジティブペアと等しい重み付けは、依然として不十分でノイズの多い情報を取得する低級ノードにつながります。
このペーパーでは、硬度適応性のある再重弁(HAR)の対照的な損失を緩和することを提案します。
ノードラベルを活用し、学習の硬度に基づいて正のペアとネガティブペアを適応的に重み付けすることにより、より正のペアを追加します。
さらに、Sharpという名前の実験的なフレームワークを開発して、HARをより広範なシナリオに拡張します。
理論分析と実験の両方が、シャープの有効性を検証します。
4つのデータセットにわたる実験結果は、Sharpがグローバルレベルと学位レベルの両方でベースラインに対してより良いパフォーマンスを達成することを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) often suffer from degree bias in node classification tasks, where prediction performance varies across nodes with different degrees. Several approaches, which adopt Graph Contrastive Learning (GCL), have been proposed to mitigate this bias. However, the limited number of positive pairs and the equal weighting of all positives and negatives in GCL still lead to low-degree nodes acquiring insufficient and noisy information. This paper proposes the Hardness Adaptive Reweighted (HAR) contrastive loss to mitigate degree bias. It adds more positive pairs by leveraging node labels and adaptively weights positive and negative pairs based on their learning hardness. In addition, we develop an experimental framework named SHARP to extend HAR to a broader range of scenarios. Both our theoretical analysis and experiments validate the effectiveness of SHARP. The experimental results across four datasets show that SHARP achieves better performance against baselines at both global and degree levels.

arxiv情報

著者 Jingyu Hu,Hongbo Bo,Jun Hong,Xiaowei Liu,Weiru Liu
発行日 2025-06-05 16:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

The Lessons of Developing Process Reward Models in Mathematical Reasoning

要約

プロセス報酬モデル(PRM)は、推論プロセスで中間エラーを特定して軽減することを目的とした、大規模な言語モデル(LLM)の数学的推論におけるプロセス監督のための有望なアプローチとして現れます。
ただし、効果的なPRMSの開発は、特にデータアノテーションと評価方法論において、重大な課題に直面しています。
この論文では、広範な実験を通じて、PRMSの一般的に使用されるモンテカルロ(MC)推定ベースのデータ合成は、通常、LLM-As-a-a-judgeおよび人間の注釈法と比較して劣ったパフォーマンスと一般化をもたらすことを実証します。
MC推定は、現在の段階の正確性を評価するために完了モデルに依存しており、不正確なステップ検証につながります。
さらに、PRMSの従来のベスト-N(Bon)評価戦略の潜在的なバイアスを特定します。(1)信頼性の低いポリシーモデルは、正解と欠陥のあるプロセスで応答を生成し、BONの評価基準とPRMのプロセス検証の目的との間の不整列につながります。
(2)そのような応答のPRMSの耐性は、膨らんだボンスコアにつながります。
(3)既存のPRMSには、最終的な回答ステップに集中した最小スコアのかなりの割合があり、BON最適化されたPRMSのプロセスに基づく評価への移行が明らかになりました。
これらの課題に対処するために、MC推定をLLM-A-A-Judgeと効果的に統合するコンセンサスフィルタリングメカニズムを開発し、応答レベルとステップレベルのメトリックを組み合わせたより包括的な評価フレームワークを提唱します。
メカニズムに基づいて、Bon評価のモデルパフォーマンスとデータ効率と段階的なエラー識別タスクの両方を大幅に改善します。
最後に、既存のオープンソースの代替案よりも優れた新しい最先端のPRMをリリースし、構築プロセス監督モデルの将来の研究のための実用的なガイドラインを提供します。

要約(オリジナル)

Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.

arxiv情報

著者 Zhenru Zhang,Chujie Zheng,Yangzhen Wu,Beichen Zhang,Runji Lin,Bowen Yu,Dayiheng Liu,Jingren Zhou,Junyang Lin
発行日 2025-06-05 16:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Revisiting 3D LLM Benchmarks: Are We Really Testing 3D Capabilities?

要約

この作業では、3D LLM評価における「2Dチーティング」問題を特定します。ここでは、これらのタスクは、ポイントクラウドのレンダリングされた画像を使用してVLMSによって簡単に解決され、3D LLMSのユニークな3D機能の効果的な評価を公開します。
複数の3D LLMベンチマークにわたってVLMパフォーマンスをテストし、これを参照として使用して、本物の3D理解をより適切に評価するための原則を提案します。
また、3D LLMを評価する際に、3D能力を1Dまたは2Dの側面から明示的に分離することも提唱しています。
コードとデータは、https://github.com/llm-class-group/revisiting-3d-llm-benchmarksで入手できます。

要約(オリジナル)

In this work, we identify the ‘2D-Cheating’ problem in 3D LLM evaluation, where these tasks might be easily solved by VLMs with rendered images of point clouds, exposing ineffective evaluation of 3D LLMs’ unique 3D capabilities. We test VLM performance across multiple 3D LLM benchmarks and, using this as a reference, propose principles for better assessing genuine 3D understanding. We also advocate explicitly separating 3D abilities from 1D or 2D aspects when evaluating 3D LLMs. Code and data are available at https://github.com/LLM-class-group/Revisiting-3D-LLM-Benchmarks .

arxiv情報

著者 Jiahe Jin,Yanheng He,Mingyan Yang
発行日 2025-06-05 16:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training

要約

シーケンスモデリングは現在、SoftMaxの自己触媒を使用する因果変圧器アーキテクチャによって支配されています。
広く採用されていますが、変圧器はスケーリングメモリを必要とし、推論中に直線的に計算します。
最近の作業ストリームは、SoftMax操作を線形化し、Deltanet、Mamba、XLSTMなどの一定のメモリと計算コストを備えた強力な再発性ニューラルネットワーク(RNN)モデルをもたらしました。
これらのモデルは、それらの再発層のダイナミクスがすべて、オンライン学習ルールを通じてほぼ最適化されたコンテスト内回帰目標から派生できることに注意することで統合できます。
ここでは、この作業ラインに参加し、最近提案されたMESA層(Von Oswald et al。、2024)の数値的に安定した塊状の並列化可能なバージョンを導入し、10億パラメータースケールで言語モデリングで研究します。
この層は再びコンテキスト内の損失に起因しますが、高速コンジュゲート勾配ソルバーを使用して、すべての時点で最適化されるようになりました。
広範な一連の実験を通じて、最適なテスト時間トレーニングにより、特に長いコンテキストの理解を必要とするタスクで、以前のRNNよりも低い言語モデリングの困惑と下流のベンチマークパフォーマンスに到達することができることを示しています。
このパフォーマンスのゲインは、推論時間中に追加のフロップを費やした費用がかかります。
したがって、私たちの結果は、テスト時間計算の増加の最近の傾向に興味深く関連しています。ここでは、ニューラルネットワーク自体内の連続的な最適化問題を解決するために計算を費やすことにより。

要約(オリジナル)

Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, transformers require scaling memory and compute linearly during inference. A recent stream of work linearized the softmax operation, resulting in powerful recurrent neural network (RNN) models with constant memory and compute costs such as DeltaNet, Mamba or xLSTM. These models can be unified by noting that their recurrent layer dynamics can all be derived from an in-context regression objective, approximately optimized through an online learning rule. Here, we join this line of work and introduce a numerically stable, chunkwise parallelizable version of the recently proposed Mesa layer (von Oswald et al., 2024), and study it in language modeling at the billion-parameter scale. This layer again stems from an in-context loss, but which is now minimized to optimality at every time point using a fast conjugate gradient solver. Through an extensive suite of experiments, we show that optimal test-time training enables reaching lower language modeling perplexity and higher downstream benchmark performance than previous RNNs, especially on tasks requiring long context understanding. This performance gain comes at the cost of additional flops spent during inference time. Our results are therefore intriguingly related to recent trends of increasing test-time compute to improve performance — here by spending compute to solve sequential optimization problems within the neural network itself.

arxiv情報

著者 Johannes von Oswald,Nino Scherrer,Seijin Kobayashi,Luca Versari,Songlin Yang,Maximilian Schlegel,Kaitlin Maile,Yanick Schimpf,Oliver Sieberling,Alexander Meulemans,Rif A. Saurous,Guillaume Lajoie,Charlotte Frenkel,Razvan Pascanu,Blaise Agüera y Arcas,João Sacramento
発行日 2025-06-05 16:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする