Information Locality as an Inductive Bias for Neural Language Models

要約

帰納的バイアスは、すべての機械学習システムに固有のものであり、モデルが有限データからどのように一般化するかを形成します。
神経言語モデル(LMS)の場合、これらのバイアスが人間の処理の制約に沿っているか分岐するかについて議論が続きます。
この問題に対処するために、これらのバイアスの性質に関する制御された調査を可能にする定量的フレームワークを提案します。
私たちのフレームワーク内で、$ m $ -localエントロピー$ \ unicode {x2013} $を導入します。
確率的な有限状態のオートマトン(PFSA)によって定義された摂動自然言語corporaと言語の両方での実験では、より高い$ m $ localエントロピーを持つ言語がトランスとLSTM LMSが学習するのがより困難であることを示しています。
これらの結果は、神経LMSは、人間と同じように、言語の局所統計構造に非常に敏感であることを示唆しています。

要約(オリジナル)

Inductive biases are inherent in every machine learning system, shaping how models generalize from finite data. In the case of neural language models (LMs), debates persist as to whether these biases align with or diverge from human processing constraints. To address this issue, we propose a quantitative framework that allows for controlled investigations into the nature of these biases. Within our framework, we introduce $m$-local entropy$\unicode{x2013}$an information-theoretic measure derived from average lossy-context surprisal$\unicode{x2013}$that captures the local uncertainty of a language by quantifying how effectively the $m-1$ preceding symbols disambiguate the next symbol. In experiments on both perturbed natural language corpora and languages defined by probabilistic finite-state automata (PFSAs), we show that languages with higher $m$-local entropy are more difficult for Transformer and LSTM LMs to learn. These results suggest that neural LMs, much like humans, are highly sensitive to the local statistical structure of a language.

arxiv情報

著者 Taiga Someya,Anej Svete,Brian DuSell,Timothy J. O’Donnell,Mario Giulianelli,Ryan Cotterell
発行日 2025-06-05 15:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Do Large Language Models Judge Error Severity Like Humans?

要約

大規模な言語モデル(LLM)は、自然言語生成の自動評価者としてますます使用されていますが、エラーの重大度の人間の判断を正確に複製できるかどうかは不明のままです。
この研究では、制御されたセマンティックエラーを含む画像記述のヒトとLLMの評価を体系的に比較します。
Van Miltenburgらの実験的枠組みを拡張します。
(2020)Unimodal(テキストのみ)およびマルチモーダル(テキスト +画像)設定の両方に、年齢、性別、衣類の種類、衣類の色の4つのエラータイプを評価します。
私たちの調査結果は、人間がさまざまなエラータイプにさまざまなレベルの重症度を割り当て、視覚的なコンテキストが色とタイプのエラーの知覚された重大度を大幅に増幅することを明らかにしています。
特に、ほとんどのLLMは、性別エラーに低いスコアを割り当てますが、非常に深刻であると判断するが異なる理由で両方を判断する人間とは異なり、色のエラーに対して不釣り合いに高いスコアを割り当てます。
これは、これらのモデルがジェンダーの判断に影響を与える社会的規範を内面化したかもしれないが、異なる神経メカニズムによって形作られる色に対する人間の感受性をエミュレートするための知覚的な基盤を欠いていることを示唆しています。
評価されたLLMSの1つであるDoubaoは、エラーの重大度の人間のようなランキングを複製しますが、人間と同じくらい明確にエラータイプを区別できません。
驚くべきことに、ユニモーダルLLMであるDeepSeek-V3は、単峰性とマルチモーダルの両方の条件で人間の判断と最高の整合性を達成し、最先端のマルチモーダルモデルを上回ります。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used as automated evaluators in natural language generation, yet it remains unclear whether they can accurately replicate human judgments of error severity. In this study, we systematically compare human and LLM assessments of image descriptions containing controlled semantic errors. We extend the experimental framework of van Miltenburg et al. (2020) to both unimodal (text-only) and multimodal (text + image) settings, evaluating four error types: age, gender, clothing type, and clothing colour. Our findings reveal that humans assign varying levels of severity to different error types, with visual context significantly amplifying perceived severity for colour and type errors. Notably, most LLMs assign low scores to gender errors but disproportionately high scores to colour errors, unlike humans, who judge both as highly severe but for different reasons. This suggests that these models may have internalised social norms influencing gender judgments but lack the perceptual grounding to emulate human sensitivity to colour, which is shaped by distinct neural mechanisms. Only one of the evaluated LLMs, Doubao, replicates the human-like ranking of error severity, but it fails to distinguish between error types as clearly as humans. Surprisingly, DeepSeek-V3, a unimodal LLM, achieves the highest alignment with human judgments across both unimodal and multimodal conditions, outperforming even state-of-the-art multimodal models.

arxiv情報

著者 Diege Sun,Guanyi Chen,Fan Zhao,Xiaorong Cheng,Tingting He
発行日 2025-06-05 15:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

CIVET: Systematic Evaluation of Understanding in VLMs

要約

ビジョン言語モデル(VLM)はさまざまなタスクで競争力のあるパフォーマンスを達成していますが、根本的な構造とシーンのセマンティクスの理解は、依然として研究されていません。
VLMの理解を調査するために、オブジェクトの特性と関係に関する能力を制御された解釈可能な方法で研究します。
この範囲に、制御された刺激を介して体系的な評価のための斬新で拡張可能なフレームワークであるCarvetを紹介します。
Carvetは、VLMの理解を評価するための標準化された体系的評価の欠如に対処し、研究者が統計的厳密さで仮説をテストできるようにします。
Carvetを使用すると、徹底的な刺激セット、注釈ノイズ、データセット固有のバイアス、および制御されていないシーンの複雑さで5つの最先端のVLMを評価します。
私たちの調査結果は、1)現在のVLMが限られた基本オブジェクトプロパティのみを正確に認識できることを明らかにしています。
2)彼らのパフォーマンスは、シーン内のオブジェクトの位置に大きく依存します。
3)彼らはオブジェクト間の基本的な関係を理解するのに苦労しています。
さらに、ヒトのアノテーターとの比較評価は、VLMがまだ人間レベルの精度を達成することに依然として及ばないことを明らかにしています。

要約(オリジナル)

While Vision-Language Models (VLMs) have achieved competitive performance in various tasks, their comprehension of the underlying structure and semantics of a scene remains understudied. To investigate the understanding of VLMs, we study their capability regarding object properties and relations in a controlled and interpretable manner. To this scope, we introduce CIVET, a novel and extensible framework for systematiC evaluatIon Via controllEd sTimuli. CIVET addresses the lack of standardized systematic evaluation for assessing VLMs’ understanding, enabling researchers to test hypotheses with statistical rigor. With CIVET, we evaluate five state-of-the-art VLMs on exhaustive sets of stimuli, free from annotation noise, dataset-specific biases, and uncontrolled scene complexity. Our findings reveal that 1) current VLMs can accurately recognize only a limited set of basic object properties; 2) their performance heavily depends on the position of the object in the scene; 3) they struggle to understand basic relations among objects. Furthermore, a comparative evaluation with human annotators reveals that VLMs still fall short of achieving human-level accuracy.

arxiv情報

著者 Massimo Rizzoli,Simone Alghisi,Olha Khomyn,Gabriel Roccabruna,Seyed Mahed Mousavi,Giuseppe Riccardi
発行日 2025-06-05 15:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

ValueSim: Generating Backstories to Model Individual Value Systems

要約

大規模な言語モデル(LLM)はますます人間のような能力を示し続けているため、それらを人間の価値に合わせて揃えることが非常に重要になりました。
迅速な学習や強化学習などの現代の高度なテクニックは、LLMを人間の価値とより適切に調整するために展開されています。
ただし、これらのアプローチは広範な倫理的考慮事項と有用性に対処していますが、個別の人間の価値システムのシミュレーションに焦点を当てることはめったにありません。
このギャップに対処するために、過去の経験と人口統計情報を反映する個人的なバックストーリーの生成を通じて個々の値をシミュレートするフレームワークであるValueImを提示します。
Valueimは、構造化された個々のデータを物語のバックストーリーに変換し、認知感情の性格システムに触発されたマルチモジュールアーキテクチャを採用して、これらの物語に基づいて個々の価値をシミュレートします。
World Values Surveyから派生した自己構築ベンチマークのテストValueimは、検索された生成方法と比較して、Top-1の精度の改善が10%以上の改善を示しています。
さらなる分析により、パフォーマンスが追加のユーザーインタラクション履歴が利用可能になるにつれてパフォーマンスが向上し、時間の経過とともにペルソナシミュレーション機能を改善するモデルの能力が示されています。

要約(オリジナル)

As Large Language Models (LLMs) continue to exhibit increasingly human-like capabilities, aligning them with human values has become critically important. Contemporary advanced techniques, such as prompt learning and reinforcement learning, are being deployed to better align LLMs with human values. However, while these approaches address broad ethical considerations and helpfulness, they rarely focus on simulating individualized human value systems. To address this gap, we present ValueSim, a framework that simulates individual values through the generation of personal backstories reflecting past experiences and demographic information. ValueSim converts structured individual data into narrative backstories and employs a multi-module architecture inspired by the Cognitive-Affective Personality System to simulate individual values based on these narratives. Testing ValueSim on a self-constructed benchmark derived from the World Values Survey demonstrates an improvement in top-1 accuracy by over 10% compared to retrieval-augmented generation methods. Further analysis reveals that performance enhances as additional user interaction history becomes available, indicating the model’s ability to refine its persona simulation capabilities over time.

arxiv情報

著者 Bangde Du,Ziyi Ye,Zhijing Wu,Jankowska Monika,Shuqi Zhu,Qingyao Ai,Yujia Zhou,Yiqun Liu
発行日 2025-06-05 15:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

要約

この作業では、QWEN3 Foundationモデルに基づいて構築されたテキスト埋め込みおよび再ランキング機能で、その前身であるGTE-QWENシリーズに対する大幅な進歩であるQWEN3 Embeddingシリーズを紹介します。
多言語テキストの理解と生成におけるQWEN3 LLMSの堅牢な機能を活用して、当社の革新的なマルチステージトレーニングパイプラインは、大規模な監督なしの事前トレーニングと、高品質のデータセットでの監視された微調整を組み合わせています。
効果的なモデルのマージ戦略により、QWEN3埋め込みシリーズの堅牢性と適応性がさらに保証されます。
トレーニングプロセス中、QWEN3 LLMSはバックボーンモデルとしてだけでなく、複数のドメインと言語で高品質でリッチで多様なトレーニングデータを合成する上で重要な役割を果たし、トレーニングパイプラインを強化します。
QWEN3 Embeddingシリーズは、埋め込みタスクと再ランキングの両方にモデルサイズ(0.6b、4b、8b)のスペクトルを提供し、ユーザーが効率または効果のために最適化できる多様な展開シナリオに対処します。
経験的評価は、QWEN3エンミングシリーズが多様なベンチマーク全体で最先端の結果を達成することを示しています。
特に、テキスト埋め込みのための多言語評価ベンチマークMTEB、およびコード検索、横断的検索、多言語検索などのさまざまな検索タスクに優れています。
再現性を促進し、コミュニティ主導の研究開発を促進するために、QWEN3埋め込みモデルはApache 2.0ライセンスの下で公開されています。

要約(オリジナル)

In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs’ robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.

arxiv情報

著者 Yanzhao Zhang,Mingxin Li,Dingkun Long,Xin Zhang,Huan Lin,Baosong Yang,Pengjun Xie,An Yang,Dayiheng Liu,Junyang Lin,Fei Huang,Jingren Zhou
発行日 2025-06-05 15:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

RELIC: Evaluating Compositional Instruction Following via Language Recognition

要約

大規模な言語モデル(LLM)は、入力や出力の例なしで、コンテキストで提供されるタスクの仕様のみに基づいてタスクを実行することがますます期待されています。
この能力は、次の指示と呼ばれます。
言語認識を使用した後に命令を評価するための言語内の文字(RELIC)フレームワークの認識を紹介します。文字列が正式な文法によって生成されるかどうかを判断するタスク。
LLMSのコンテキストを使用する能力の多くの標準的な評価とは異なり、このタスクでは、コンテキストから取得された多数の指示(文法制作)を一緒に作成する必要があります。
言語は合成であるため、LLMSのスキルが向上するにつれてタスクを複雑にすることができ、新しいインスタンスを自動的に生成して、データの汚染を軽減できます。
正式なLLMSをRelicで評価し、文法と個々の例の文字列の複雑さからその精度を確実に予測できること、そして現在利用可能な最も先進的なLLMでさえ、理論的な期待に沿って、より複雑な文法とサンプルでほぼチャンスのパフォーマンスを示していることがわかります。
また、LLMSがますます困難な推論タスクを解決しようとする方法を診断するためにRelicを使用して、言語認識タスクの複雑さが増加するにつれて、モデルは複雑な指示に従うのではなく、浅いヒューリスティックに依存するように切り替えることがわかります。

要約(オリジナル)

Large language models (LLMs) are increasingly expected to perform tasks based only on a specification of the task provided in context, without examples of inputs and outputs; this ability is referred to as instruction following. We introduce the Recognition of Languages In-Context (RELIC) framework to evaluate instruction following using language recognition: the task of determining if a string is generated by formal grammar. Unlike many standard evaluations of LLMs’ ability to use their context, this task requires composing together a large number of instructions (grammar productions) retrieved from the context. Because the languages are synthetic, the task can be increased in complexity as LLMs’ skills improve, and new instances can be automatically generated, mitigating data contamination. We evaluate state-of-the-art LLMs on RELIC and find that their accuracy can be reliably predicted from the complexity of the grammar and the individual example strings, and that even the most advanced LLMs currently available show near-chance performance on more complex grammars and samples, in line with theoretical expectations. We also use RELIC to diagnose how LLMs attempt to solve increasingly difficult reasoning tasks, finding that as the complexity of the language recognition task increases, models switch to relying on shallow heuristics instead of following complex instructions.

arxiv情報

著者 Jackson Petty,Michael Y. Hu,Wentao Wang,Shauli Ravfogel,William Merrill,Tal Linzen
発行日 2025-06-05 16:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration

要約

近年、マルチモーダルの大手言語モデル(MLLM)は大きな進歩を遂げていますが、マルチモーダル推論には固有の課題に直面し続けています。
モデルの信頼の推定に関する以前の作業は、トレーニングとキャリブレーションの全体的な反応に焦点を当てる傾向がありますが、各推論ステップに対する信頼を評価することができず、望ましくない幻覚雪玉につながります。
この作業では、推論の信頼性キャリブレーションを通じてMLLMの知識境界認識を促進する新しいフレームワークであるMmboundaryを提示します。
これを達成するために、MLLM推論プロセスの各ステップで信頼性を推定するために、補完的なテキストおよびクロスモーダルの自己報酬信号を組み込むことを提案します。
最初の信頼表現ウォームアップのためのこの自己報酬の信頼性推定シグナルのセットで、監視された微調整MLLMに加えて、モデルの知識をさらに調整し、各推論ステップで信頼を較正するための複数の報酬機能を備えた強化学習段階を導入し、推論チェーンの自己修正を強化します。
経験的結果は、Mmboundaryが多様なドメインデータセットとメトリックにわたって既存の方法を大幅に上回り、マルチモーダル信頼キャリブレーションエラーが平均7.5%減少し、タスクパフォ​​ーマンスの最大8.3%の改善を達成することを示しています。

要約(オリジナル)

In recent years, multimodal large language models (MLLMs) have made significant progress but continue to face inherent challenges in multimodal reasoning, which requires multi-level (e.g., perception, reasoning) and multi-granular (e.g., multi-step reasoning chain) advanced inferencing. Prior work on estimating model confidence tends to focus on the overall response for training and calibration, but fails to assess confidence in each reasoning step, leading to undesirable hallucination snowballing. In this work, we present MMBoundary, a novel framework that advances the knowledge boundary awareness of MLLMs through reasoning step confidence calibration. To achieve this, we propose to incorporate complementary textual and cross-modal self-rewarding signals to estimate confidence at each step of the MLLM reasoning process. In addition to supervised fine-tuning MLLM on this set of self-rewarded confidence estimation signal for initial confidence expression warm-up, we introduce a reinforcement learning stage with multiple reward functions for further aligning model knowledge and calibrating confidence at each reasoning step, enhancing reasoning chain self-correction. Empirical results show that MMBoundary significantly outperforms existing methods across diverse domain datasets and metrics, achieving an average of 7.5% reduction in multimodal confidence calibration errors and up to 8.3% improvement in task performance.

arxiv情報

著者 Zhitao He,Sandeep Polisetty,Zhiyuan Fan,Yuchen Huang,Shujin Wu,Yi R. Fung
発行日 2025-06-05 16:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

要約

大規模な言語モデル(LLM)は、通常、膨大な量の免許のないテキストで訓練されています。これは、知的財産の侵害と倫理的懸念の可能性があるため、精査につながった実践です。
公然とライセンスされたテキストでのLLMSのトレーニングは、これらの問題に対処するための最初のステップを提示しますが、以前のデータ収集の取り組みにより、パフォーマンスのLLMを生成するには小さすぎるまたは低品質のデータセットが得られました。
このギャップに対処するために、LLM Pretraining用に設計された公然とライセンスされたテキストの8テラバイトコレクションであるCommon Pile V0.1を収集、キュレート、およびリリースします。
一般的なパイルは、研究論文、コード、本、百科事典、教育資料、オーディオトランスクリプトなどを含む多様なドメインにまたがる30のソースからのコンテンツで構成されています。
重要なことは、それぞれ1兆トークンと2兆トークンで訓練された、Comma V0.1-1TとComma V0.1-2Tのテキストで2つの70億パラメーターLLMをトレーニングすることにより、努力を検証します。
どちらのモデルも、LLAMA 1や2 7bなどの同様の計算予算で訓練されたLLMSに競争力のあるパフォーマンスを実現します。
Common Pile V0.1自体をリリースすることに加えて、Comma V0.1モデルのトレーニング混合とチェックポイントだけでなく、その作成で使用されるコードもリリースします。

要約(オリジナル)

Large language models (LLMs) are typically trained on enormous quantities of unlicensed text, a practice that has led to scrutiny due to possible intellectual property infringement and ethical concerns. Training LLMs on openly licensed text presents a first step towards addressing these issues, but prior data collection efforts have yielded datasets too small or low-quality to produce performant LLMs. To address this gap, we collect, curate, and release the Common Pile v0.1, an eight terabyte collection of openly licensed text designed for LLM pretraining. The Common Pile comprises content from 30 sources that span diverse domains including research papers, code, books, encyclopedias, educational materials, audio transcripts, and more. Crucially, we validate our efforts by training two 7 billion parameter LLMs on text from the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion tokens respectively. Both models attain competitive performance to LLMs trained on unlicensed text with similar computational budgets, such as Llama 1 and 2 7B. In addition to releasing the Common Pile v0.1 itself, we also release the code used in its creation as well as the training mixture and checkpoints for the Comma v0.1 models.

arxiv情報

著者 Nikhil Kandpal,Brian Lester,Colin Raffel,Sebastian Majstorovic,Stella Biderman,Baber Abbasi,Luca Soldaini,Enrico Shippole,A. Feder Cooper,Aviya Skowron,John Kirchenbauer,Shayne Longpre,Lintang Sutawika,Alon Albalak,Zhenlin Xu,Guilherme Penedo,Loubna Ben Allal,Elie Bakouch,John David Pressman,Honglu Fan,Dashiell Stander,Guangyu Song,Aaron Gokaslan,Tom Goldstein,Brian R. Bartoldson,Bhavya Kailkhura,Tyler Murray
発行日 2025-06-05 16:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

Improving Low-Resource Morphological Inflection via Self-Supervised Objectives

要約

自己教師の目的は、大規模な非標識データを活用することにより、NLPの大きな進歩を促進していますが、そのようなリソースは世界の多くの言語ではほとんどありません。
驚くべきことに、それらはキャラクターレベルのタスクについてはあまり探求されていません。このタスクでは、少量のデータが有益である可能性があります。
極端に低リソースの設定で、言語文書に非常に関連する文字レベルのタスクである形態学的変曲のための自己監視補助タスクの有効性を調査します。
自動エンコードは、非標識データが非常に限られている場合、最高のパフォーマンスを生成しますが、キャラクターマスク言語モデリング(CMLM)はデータの可用性が向上するにつれてより効果的になります。
より強い誘導バイアスを持つ目標はモデルの予測に直感的に影響しますが、標準のCMLMを上回ることはめったにありません。
ただし、既知の形態素境界に基づいたサンプリングマスクは、パフォーマンスを一貫して改善し、低リソースの形態モデリングの有望な方向を強調します。

要約(オリジナル)

Self-supervised objectives have driven major advances in NLP by leveraging large-scale unlabeled data, but such resources are scarce for many of the world’s languages. Surprisingly, they have not been explored much for character-level tasks, where smaller amounts of data have the potential to be beneficial. We investigate the effectiveness of self-supervised auxiliary tasks for morphological inflection — a character-level task highly relevant for language documentation — in extremely low-resource settings, training encoder-decoder transformers for 19 languages and 13 auxiliary objectives. Autoencoding yields the best performance when unlabeled data is very limited, while character masked language modeling (CMLM) becomes more effective as data availability increases. Though objectives with stronger inductive biases influence model predictions intuitively, they rarely outperform standard CMLM. However, sampling masks based on known morpheme boundaries consistently improves performance, highlighting a promising direction for low-resource morphological modeling.

arxiv情報

著者 Adam Wiemerslage,Katharina von der Wense
発行日 2025-06-05 16:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

要約

トランスモデルは、二次時間と線形メモリの複雑さのために、長いコンテキスト推論と格闘しています。
再発メモリ変圧器(RMTS)は、漸近コストを線形時間と一定のメモリ使用量に削減することにより、ソリューションを提供します。
ただし、メモリの更新メカニズムは順次実行につながり、パフォーマンスボトルネックを引き起こします。
正確な再発を維持しながら、RMTのセグメント間の並列性を解き放つスケジューリングスキームである斜めのバッチを導入します。
このアプローチは、順次制約を排除し、複雑なバッチとパイプラインの技術を使用しない単一の長いコンテキスト入力でも効率的なGPU推論を可能にします。
この手法は純粋にランタイム計算の再注文であるため、既存のRMTモデルは再訓練なしでそれを採用します。
Llama-1B ARMTモデルに適用される対角線バッチは、131,072トークンシーケンスでのシーケンシャルRMT実装で標準のフルアテンションで3.3倍のスピードアップと1.8倍のスピードアップをもたらします。
連続したボトルネックを削除することにより、対角線バッチは推論コストと遅延を削減し、それによりRMTを実世界の長いコンテキストアプリケーションの実用的なソリューションとして強化します。

要約(オリジナル)

Transformer models struggle with long-context inference due to their quadratic time and linear memory complexity. Recurrent Memory Transformers (RMTs) offer a solution by reducing the asymptotic cost to linear time and constant memory usage. However, their memory update mechanism leads to sequential execution, causing a performance bottleneck. We introduce Diagonal Batching, a scheduling scheme that unlocks parallelism across segments in RMTs while preserving exact recurrence. This approach eliminates the sequential constraint, enabling efficient GPU inference even for single long-context inputs without complex batching and pipelining techniques. Because the technique is purely a run-time computation reordering, existing RMT models adopt it with no retraining. Applied to a LLaMA-1B ARMT model, Diagonal Batching yields a 3.3x speedup over standard full-attention LLaMA-1B and a 1.8x speedup over the sequential RMT implementation on 131,072-token sequences. By removing sequential bottleneck, Diagonal Batching reduces inference cost and latency, thereby strengthening RMTs as a practical solution for real-world, long-context applications.

arxiv情報

著者 Danil Sivtsov,Ivan Rodkin,Gleb Kuzmin,Yuri Kuratov,Ivan Oseledets
発行日 2025-06-05 16:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする