Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

要約

Deepseek-R1やOpenai-O3などの推論強化大型言語モデル(LLM)の最近の進歩は、大きな進歩を示しています。
ただし、特に最終的な出力とともに、推論プロセスの品質を評価する際には、専門的な医療の文脈での適用が未定です。
ここでは、1,453の構造化された患者症例のベンチマークデータセットであるMEDRベンチを紹介します。
13のボディシステムと10の専門分野にまたがる、一般的な疾患とまれな疾患の両方が含まれています。
LLMのパフォーマンスを包括的に評価するために、患者ケアの旅全体をシミュレートする3つの重要な試験の推奨、診断意思決定、および治療計画を含むフレームワークを提案します。
推論の品質を評価するために、動的な相互参照と証拠チェックを使用して、効率、現実、および完全性に基づいてフリーテキスト推論応答を客観的にスコアリングする新しい自動化されたシステムである推論評価者を提示します。
このベンチマークを使用して、DeepSeek-R1、Openai-O3-Mini、Gemini-2.0-Flash Thinkingなどの5つの最先端の推論LLMを評価します。結果は、十分な検査結果を提供すると、比較的単純な診断タスクで85%以上の精度を達成することを示しています。
ただし、試験の推奨や治療計画など、より複雑なタスクのパフォーマンスは低下します。
推論出力は一般に信頼性があり、事実上のスコアは90%を超えていますが、重要な推論ステップは頻繁に見逃されます。
これらの発見は、臨床LLMの進捗と制限の両方を強調しています。
特に、DeepSeek-R1のようなオープンソースモデルは、独自のシステムとのギャップを絞り込んでおり、ヘルスケアのアクセス可能で公平な進歩を促進する可能性を強調しています。

要約(オリジナル)

Recent advancements in reasoning-enhanced large language models (LLMs), such as DeepSeek-R1 and OpenAI-o3, have demonstrated significant progress. However, their application in professional medical contexts remains underexplored, particularly in evaluating the quality of their reasoning processes alongside final outputs. Here, we introduce MedR-Bench, a benchmarking dataset of 1,453 structured patient cases, annotated with reasoning references derived from clinical case reports. Spanning 13 body systems and 10 specialties, it includes both common and rare diseases. To comprehensively evaluate LLM performance, we propose a framework encompassing three critical examination recommendation, diagnostic decision-making, and treatment planning, simulating the entire patient care journey. To assess reasoning quality, we present the Reasoning Evaluator, a novel automated system that objectively scores free-text reasoning responses based on efficiency, actuality, and completeness using dynamic cross-referencing and evidence checks. Using this benchmark, we evaluate five state-of-the-art reasoning LLMs, including DeepSeek-R1, OpenAI-o3-mini, and Gemini-2.0-Flash Thinking, etc. Our results show that current LLMs achieve over 85% accuracy in relatively simple diagnostic tasks when provided with sufficient examination results. However, performance declines in more complex tasks, such as examination recommendation and treatment planning. While reasoning outputs are generally reliable, with factuality scores exceeding 90%, critical reasoning steps are frequently missed. These findings underscore both the progress and limitations of clinical LLMs. Notably, open-source models like DeepSeek-R1 are narrowing the gap with proprietary systems, highlighting their potential to drive accessible and equitable advancements in healthcare.

arxiv情報

著者 Pengcheng Qiu,Chaoyi Wu,Shuyu Liu,Weike Zhao,Zhuoxia Chen,Hongfei Gu,Chuanjin Peng,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-03-10 17:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases はコメントを受け付けていません

Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers

要約

この作業では、パス積分形式のフレームワーク内でコアメカニズムを再解釈することにより、トランスアルゴリズムの一般化された定式化を提示します。
この観点では、注意メカニズムは、将来のトークン状態につながる可能なすべての遷移パスを統合するプロセスとして再構築され、時間の進化はフィードフォワードネットワークによって支配されます。
トランスの各コンポーネントをパス積分定式化におけるその対応物に体系的にマッピングすることにより、よりコンパクトで効率的な表現を取得します。この表現では、シーケンスのコンテキスト情報がメモリのようなセグメントに凝縮されます。
これらのセグメントは、変圧器層全体で再発して処理され、より効果的な長期情報保持が可能になります。
PassKeyの検索タスクと要約タスクを通じてこのアプローチの有効性を検証し、提案された方法がシーケンスの長さで直線的にスケーリングするメモリ使用量を示しながら履歴情報を保持していることを示します。
これは、標準的な注意メカニズムで通常観察される非線形記憶成長とは対照的です。
この量子に触発されたトランスアーキテクチャの一般化により、将来の変圧器モデルの効率と表現力の両方を高めるための新しい道が開かれると予想されます。

要約(オリジナル)

In this work, we present a generalized formulation of the Transformer algorithm by reinterpreting its core mechanisms within the framework of Path Integral formalism. In this perspective, the attention mechanism is recast as a process that integrates all possible transition paths leading to future token states, with temporal evolution governed by the Feed-Forward Network. By systematically mapping each component of the Transformer to its counterpart in the Path Integral formulation, we obtain a more compact and efficient representation, in which the contextual information of a sequence is condensed into memory-like segments. These segments are recurrently processed across Transformer layers, enabling more effective long-term information retention. We validate the effectiveness of this approach through the Passkey retrieval task and a summarization task, demonstrating that the proposed method preserves historical information while exhibiting memory usage that scales linearly with sequence length. This contrasts with the non-linear memory growth typically observed in standard attention mechanisms. We expect that this quantum-inspired generalization of the Transformer architecture will open new avenues for enhancing both the efficiency and expressiveness of future Transformer models.

arxiv情報

著者 Won-Gi Paeng,Daesuk Kwon,Kyungwon Jeong,Honggyo Suh
発行日 2025-03-10 13:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE, hep-ph | Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers はコメントを受け付けていません

Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models

要約

大規模な言語モデル(LLM)の数学的問題解決能力を改善するためのテスト時間計算検索戦略の急速な進歩により、堅牢な検証剤を構築する必要性がますます重要になっています。
ただし、これらすべての推論戦略は、元々Best-of-n検索用に設計された既存の検証剤に依存しているため、テスト時にツリー検索技術に最適になります。
ツリー検索中、既存の検証剤は、部分的な解または価値の低い前向き中間ステップの間接的かつ暗黙的な評価のみを提供することができ、それにより有望な中間ステップの早期剪定をもたらすことができます。
これらの制限を克服するために、トークンスーパーバイズバリューモデル(TVMS)を提案します。これは、各トークンに正しい最終回答に到達する可能性を反映する確率を割り当てる新しいクラスの検証剤です。
この新しいトークンレベルの監督により、TVMは部分的なソリューションを直接かつ明示的に評価し、テスト時にツリー検索中に有望で誤った中間ステップを効果的に区別できます。
実験結果は、ツリーサーチベースの推論戦略をTVMと組み合わせることで、数学的な問題解決タスクにおけるLLMの精度が大幅に向上し、既存の検証剤のパフォーマンスを超えることを示しています。

要約(オリジナル)

With the rapid advancement of test-time compute search strategies to improve the mathematical problem-solving capabilities of large language models (LLMs), the need for building robust verifiers has become increasingly important. However, all these inference strategies rely on existing verifiers originally designed for Best-of-N search, which makes them sub-optimal for tree search techniques at test time. During tree search, existing verifiers can only offer indirect and implicit assessments of partial solutions or under-value prospective intermediate steps, thus resulting in the premature pruning of promising intermediate steps. To overcome these limitations, we propose token-supervised value models (TVMs) – a new class of verifiers that assign each token a probability that reflects the likelihood of reaching the correct final answer. This new token-level supervision enables TVMs to directly and explicitly evaluate partial solutions, effectively distinguishing between promising and incorrect intermediate steps during tree search at test time. Experimental results demonstrate that combining tree-search-based inference strategies with TVMs significantly improves the accuracy of LLMs in mathematical problem-solving tasks, surpassing the performance of existing verifiers.

arxiv情報

著者 Jung Hyun Lee,June Yong Yang,Byeongho Heo,Dongyoon Han,Kyungsu Kim,Eunho Yang,Kang Min Yoo
発行日 2025-03-10 14:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models はコメントを受け付けていません

Provably Accurate Shapley Value Estimation via Leverage Score Sampling

要約

もともとゲーム理論で導入されたShapleyの値は、説明可能な機械学習の中心的なツールとして浮上しており、モデルの予測を特定の入力機能に起因するために使用されます。
ただし、Shapley値を計算するのは正確に高価です。$ n $の機能を備えた一般的なモデルの場合、$ o(2^n)$モデルの評価が必要です。
この問題に対処するために、近似アルゴリズムが広く使用されています。
最も人気のあるものの1つは、カーネルシャップアルゴリズムです。これはモデルに依存しており、実際に非常に効果的です。
ただし、私たちの知る限り、カーネルシェップには強力な非症状の複雑さの保証はありません。
この問題に対処し、レバレッジシャップを導入します。これは、$ O(n \ log n)$モデルの評価で実証的に正確なShapley値の推定値を提供するカーネルシャップの軽量変更です。
私たちのアプローチは、強力な回帰ツールであるレバレッジスコアサンプリングを採用することにより、Shapley値の推定と不可知論のアクティブ学習の間の接続を利用します。
理論的保証を超えて、レバレッジシェップは、ユビキタスシェップライブラリで利用可能なカーネルシェップの高度に最適化された実装さえも一貫してパフォーマンスすることを示しています[Lundberg&Lee、2017]。

要約(オリジナル)

Originally introduced in game theory, Shapley values have emerged as a central tool in explainable machine learning, where they are used to attribute model predictions to specific input features. However, computing Shapley values exactly is expensive: for a general model with $n$ features, $O(2^n)$ model evaluations are necessary. To address this issue, approximation algorithms are widely used. One of the most popular is the Kernel SHAP algorithm, which is model agnostic and remarkably effective in practice. However, to the best of our knowledge, Kernel SHAP has no strong non-asymptotic complexity guarantees. We address this issue by introducing Leverage SHAP, a light-weight modification of Kernel SHAP that provides provably accurate Shapley value estimates with just $O(n\log n)$ model evaluations. Our approach takes advantage of a connection between Shapley value estimation and agnostic active learning by employing leverage score sampling, a powerful regression tool. Beyond theoretical guarantees, we show that Leverage SHAP consistently outperforms even the highly optimized implementation of Kernel SHAP available in the ubiquitous SHAP library [Lundberg & Lee, 2017].

arxiv情報

著者 Christopher Musco,R. Teal Witter
発行日 2025-03-10 15:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Provably Accurate Shapley Value Estimation via Leverage Score Sampling はコメントを受け付けていません

From Centralized to Decentralized Federated Learning: Theoretical Insights, Privacy Preservation, and Robustness Challenges

要約

Federated Learning(FL)は、個人の生データを直接共有することなく、共同学習を可能にします。
FLは、集中(サーバーベース)または分散型(ピアツーピア)のいずれかで実装できます。
この調査では、新しい視点を提示します。集中化されたFL(CFL)と分散型FL(DFL)の根本的な違いは、単なるネットワークトポロジではなく、基礎となるトレーニングプロトコル:個別の集約と共同最適化です。
このプロトコルでのこの区別は、モデルの有用性、プライバシーの保存、および攻撃に対する堅牢性に大きな違いにつながると主張します。
採用するプロトコルのタイプに従って、CFLとDFLの両方で既存の作業を体系的にレビューおよび分類します。
この分類法は、以前の研究に対するより深い洞察を提供し、さまざまなアプローチがどのように関連するか、または異なる方法を明確にします。
分析を通じて、文献の重要なギャップを特定します。
特に、潜在的な利点にもかかわらず、分散型最適化方法に基づいたDFLアプローチの驚くべき調査の欠如を観察します。
この不足している方向性を強調し、連合学習のための分散最適化を活用するためのより多くの研究を求めます。
全体として、この作業は、集中化されたFLから分散化されたFLから分散化されたFLから包括的な概要を提供し、アプローチ間のコアの区別に新しい光を当て、フィールドのオープンな課題と将来の方向性を概説します。

要約(オリジナル)

Federated Learning (FL) enables collaborative learning without directly sharing individual’s raw data. FL can be implemented in either a centralized (server-based) or decentralized (peer-to-peer) manner. In this survey, we present a novel perspective: the fundamental difference between centralized FL (CFL) and decentralized FL (DFL) is not merely the network topology, but the underlying training protocol: separate aggregation vs. joint optimization. We argue that this distinction in protocol leads to significant differences in model utility, privacy preservation, and robustness to attacks. We systematically review and categorize existing works in both CFL and DFL according to the type of protocol they employ. This taxonomy provides deeper insights into prior research and clarifies how various approaches relate or differ. Through our analysis, we identify key gaps in the literature. In particular, we observe a surprising lack of exploration of DFL approaches based on distributed optimization methods, despite their potential advantages. We highlight this under-explored direction and call for more research on leveraging distributed optimization for federated learning. Overall, this work offers a comprehensive overview from centralized to decentralized FL, sheds new light on the core distinctions between approaches, and outlines open challenges and future directions for the field.

arxiv情報

著者 Qiongxiu Li,Wenrui Yu,Yufei Xia,Jun Pang
発行日 2025-03-10 16:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | From Centralized to Decentralized Federated Learning: Theoretical Insights, Privacy Preservation, and Robustness Challenges はコメントを受け付けていません

Balancing optimism and pessimism in offline-to-online learning

要約

確率的有限腕の盗賊問題に焦点を当てた、オフラインからオンラインの学習設定と呼ばれるものを検討します。
オフラインからオンラインの学習では、学習者は、学習者の制御下にない方法で、未知の環境との相互作用から収集されたオフラインデータから始まります。
このデータを考えると、学習者は環境との対話を開始し、より多くのデータを収集して総報酬を最大化するため、初期戦略を徐々に改善します。
この設定の学習者は根本的なジレンマに直面しています。ポリシーが短期間のみ展開されている場合、適切な戦略(多くの感覚で)は、悲観に基づいたより低い信頼境界(LCB)アルゴリズムです。
LCBは、オフラインデータによって十分に「カバー」されているポリシーと効果的に競合できます。
ただし、より長い時間の場合、好ましい戦略は、楽観主義に基づいた高度信頼境界(UCB)アルゴリズムです。
時間が経つにつれて、UCBは、すべてのオンラインアルゴリズムの中で可能な限りほぼ最高のレートで最適なポリシーのパフォーマンスに収束します。
ただし、オフラインからオンラインの学習では、UCBは最初に過度に調査し、LCBと比較して短期的なパフォーマンスが悪化します。
これは、そのポリシーがどれだけ使用されるかを制御しない学習者が、短い視野のためにLCBから始まり、より多くのラウンドが再生されるにつれてUCBのような戦略に徐々に移行することを示唆しています。
この記事では、この遷移がどのように、そしてなぜ起こるべきかを調べます。
私たちの主な結果は、新しいアルゴリズムがいつでもLCBとUCBのほぼ優れたパフォーマンスを発揮することを示しています。
アルゴリズムの背後にあるコアアイデアは広く適用されており、結果がマルチアームの盗賊設定を超えて拡張されると予想しています。

要約(オリジナル)

We consider what we call the offline-to-online learning setting, focusing on stochastic finite-armed bandit problems. In offline-to-online learning, a learner starts with offline data collected from interactions with an unknown environment in a way that is not under the learner’s control. Given this data, the learner begins interacting with the environment, gradually improving its initial strategy as it collects more data to maximize its total reward. The learner in this setting faces a fundamental dilemma: if the policy is deployed for only a short period, a suitable strategy (in a number of senses) is the Lower Confidence Bound (LCB) algorithm, which is based on pessimism. LCB can effectively compete with any policy that is sufficiently ‘covered’ by the offline data. However, for longer time horizons, a preferred strategy is the Upper Confidence Bound (UCB) algorithm, which is based on optimism. Over time, UCB converges to the performance of the optimal policy at a rate that is nearly the best possible among all online algorithms. In offline-to-online learning, however, UCB initially explores excessively, leading to worse short-term performance compared to LCB. This suggests that a learner not in control of how long its policy will be in use should start with LCB for short horizons and gradually transition to a UCB-like strategy as more rounds are played. This article explores how and why this transition should occur. Our main result shows that our new algorithm performs nearly as well as the better of LCB and UCB at any point in time. The core idea behind our algorithm is broadly applicable, and we anticipate that our results will extend beyond the multi-armed bandit setting.

arxiv情報

著者 Flore Sentenac,Ilbin Lee,Csaba Szepesvari
発行日 2025-03-10 16:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Balancing optimism and pessimism in offline-to-online learning はコメントを受け付けていません

Interference-Aware Super-Constellation Design for NOMA

要約

非正義の多重アクセス(NOMA)は、潜在的な次世代多世代の複数アクセス手法として大きな注目を集めています。
ただし、有限アルファベットの入力による実装は課題に直面しています。
特に、ユーザー間干渉のため、上層の干渉キャンセル(sic)が適用されると、重ね合わせの星座がオーバーラップシンボルを持つ可能性があります。
この問題に取り組むために、このペーパーでは、自動エンコーダーを採用して、干渉を意識したスーパーコンテルションを設計します。
重ね合わせの星座に重複したシンボルがある可能性のある従来の方法とは異なり、提案された自動エンコーダーベースのNOMA(AE-Noma)は、チャネルのゲインに関係なく、レシーバーに識別可能なシンボルを含むスーパーコンセントを設計するように訓練されています。
提案されたアーキテクチャは、SICの必要性を削除し、代わりに最尤ベースのアプローチを使用することができます。
この論文は、AE-Nomaの概念アーキテクチャ、損失機能、およびトレーニング戦略を提示します。
ビットエラー率を改善する際の干渉認識星座の有効性を実証するために、さまざまなテスト結果が提供され、さまざまなチャネルシナリオへのAE-Nomaの適応性とNOMAシステムを実装する有望な可能性を示しています

要約(オリジナル)

Non-orthogonal multiple access (NOMA) has gained significant attention as a potential next-generation multiple access technique. However, its implementation with finite-alphabet inputs faces challenges. Particularly, due to inter-user interference, superimposed constellations may have overlapping symbols leading to high bit error rates when successive interference cancellation (SIC) is applied. To tackle the issue, this paper employs autoencoders to design interference-aware super-constellations. Unlike conventional methods where superimposed constellation may have overlapping symbols, the proposed autoencoder-based NOMA (AE-NOMA) is trained to design super-constellations with distinguishable symbols at receivers, regardless of channel gains. The proposed architecture removes the need for SIC, allowing maximum likelihood-based approaches to be used instead. The paper presents the conceptual architecture, loss functions, and training strategies for AE-NOMA. Various test results are provided to demonstrate the effectiveness of interference-aware constellations in improving the bit error rate, indicating the adaptability of AE-NOMA to different channel scenarios and its promising potential for implementing NOMA systems

arxiv情報

著者 Mojtaba Vaezi,Xinliang Zhang
発行日 2025-03-10 16:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, eess.SP, math.IT | Interference-Aware Super-Constellation Design for NOMA はコメントを受け付けていません

Language Models Fail to Introspect About Their Knowledge of Language

要約

大規模な言語モデル(LLM)が自分の内部状態について内省できるかどうかに最近の関心があります。
このような能力は、LLMをより解釈しやすくし、モデルの文法的知識を評価するために言語学における標準的な内省的方法の使用を検証します(たとえば、「この文は文法ですか?」と尋ねます)。
21のオープンソースLLMSにわたる緊急内省を体系的に調査します。これは、内省が理論的に関心がある2つのドメインである文法的知識と単語予測です。
重要なことに、両方のドメインで、モデルの内部言語知識は、弦の確率の直接的な測定に理論的に根拠がある可能性があります。
次に、Metalinguisticプロンプトに対するモデルの応答が内部知識を忠実に反映しているかどうかを評価します。
内省の新しい尺度を提案します。モデルの促された応答が、ほぼ同一の内部知識を持つ別のモデルによって予測されるものを超えて、独自の文字列確率を予測する程度です。
Metalinguisticのプロンプトと確率の比較の両方が高いタスクの精度につながりますが、LLMが「自己アクセス」に特権を与えているという証拠は見つかりません。
私たちの調査結果は、モデルが内省する可能性があることを示唆する最近の結果を複雑にし、応答を促したという議論に新しい証拠を追加することが、モデルの言語一般化と混同されるべきではありません。

要約(オリジナル)

There has been recent interest in whether large language models (LLMs) can introspect about their own internal states. Such abilities would make LLMs more interpretable, and also validate the use of standard introspective methods in linguistics to evaluate grammatical knowledge in models (e.g., asking ‘Is this sentence grammatical?’). We systematically investigate emergent introspection across 21 open-source LLMs, in two domains where introspection is of theoretical interest: grammatical knowledge and word prediction. Crucially, in both domains, a model’s internal linguistic knowledge can be theoretically grounded in direct measurements of string probability. We then evaluate whether models’ responses to metalinguistic prompts faithfully reflect their internal knowledge. We propose a new measure of introspection: the degree to which a model’s prompted responses predict its own string probabilities, beyond what would be predicted by another model with nearly identical internal knowledge. While both metalinguistic prompting and probability comparisons lead to high task accuracy, we do not find evidence that LLMs have privileged ‘self-access’. Our findings complicate recent results suggesting that models can introspect, and add new evidence to the argument that prompted responses should not be conflated with models’ linguistic generalizations.

arxiv情報

著者 Siyuan Song,Jennifer Hu,Kyle Mahowald
発行日 2025-03-10 16:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Models Fail to Introspect About Their Knowledge of Language はコメントを受け付けていません

TokenButler: Token Importance is Predictable

要約

大規模な言語モデル(LLMS)は、キー価値(kV)キャッシュに依存してトークン履歴を保存し、トークンの効率的なデコードを可能にします。
KVキャッシュが成長するにつれて、それは主要なメモリと計算のボトルネックになりますが、特に以前の研究では、各デコードステップに有意義に貢献するトークンの小さなサブセットのみが示されているため、このボトルネックを緩和する機会があります。
これらの重要なトークンを見つける上での重要な課題は、それらが動的であり、非常に入力クエリに依存していることです。
既存の方法は、トークンを永続的に排除することで品質をリスクするか、完全なKVキャッシュを保持しますが、密集したコンテキストが豊富なタスクで失敗し、世代のトークンのチャンク(ページ)を取得することに依存しています。
さらに、多くの既存のKVキャッシュスパース性方法は、トークンの重要性のために不正確なプロキシに依存しています。
これらの制限に対処するために、これらの重要なトークンを特定することを学ぶ高粒度のクエリ認識予測子であるTokenbutlerを紹介します。
1.2%未満のパラメーターオーバーヘッドで軽量の予測因子をトレーニングすることにより、Tokenbutlerは、コンテキストの予測された重要性に基づいてトークンに優先順位を付けます。
これにより、トークンの重要性を推定するためのSOTAメソッドと比較して、困惑と下流の精度が8%以上向上します。
トークンバトラーを、新規合成の小コンテキストの共同参照検索タスクで評価し、オラクルに近い精度を実証します。
コード、モデル、およびベンチマーク:https://github.com/abdelfattah-lab/tokenbutler

要約(オリジナル)

Large Language Models (LLMs) rely on the Key-Value (KV) Cache to store token history, enabling efficient decoding of tokens. As the KV-Cache grows, it becomes a major memory and computation bottleneck, however, there is an opportunity to alleviate this bottleneck, especially because prior research has shown that only a small subset of tokens contribute meaningfully to each decoding step. A key challenge in finding these critical tokens is that they are dynamic, and heavily input query-dependent. Existing methods either risk quality by evicting tokens permanently, or retain the full KV-Cache but rely on retrieving chunks (pages) of tokens at generation, failing at dense, context-rich tasks. Additionally, many existing KV-Cache sparsity methods rely on inaccurate proxies for token importance. To address these limitations, we introduce TokenButler, a high-granularity, query-aware predictor that learns to identify these critical tokens. By training a light-weight predictor with less than 1.2% parameter overhead, TokenButler prioritizes tokens based on their contextual, predicted importance. This improves perplexity & downstream accuracy by over 8% relative to SoTA methods for estimating token importance. We evaluate TokenButler on a novel synthetic small-context co-referential retrieval task, demonstrating near-oracle accuracy. Code, models and benchmarks: https://github.com/abdelfattah-lab/TokenButler

arxiv情報

著者 Yash Akhauri,Ahmed F AbouElhamayed,Yifei Gao,Chi-Chih Chang,Nilesh Jain,Mohamed S. Abdelfattah
発行日 2025-03-10 16:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | TokenButler: Token Importance is Predictable はコメントを受け付けていません

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

要約

大規模なマルチモーダルモデル(LMMS)の推論の強化は、特に建築的制約が推論能力とモダリティアライメントを制限するコンパクトな3Bパラメーターアーキテクチャで、視覚的知覚と論理的推論の複雑な相互作用から独自の課題に直面しています。
ルールベースの強化学習(RL)はテキストのみのドメインに優れていますが、そのマルチモーダル拡張は2つの重要な障壁に直面しています:(1)曖昧な答えと希少な複雑な推論の例によるデータの制限、および(2)マルチモーダルな事前に誘発される基本的な推論を低下させます。
これらの課題に対処するために、\ textBf {Fondational Reasoning Enhancement(fre)}を介したマルチモーダル推論のルールベースのRLを適応させる2段階のフレームワークである\ textbf {\ method}を提案します。
FREステージは、最初にルールベースのRLを使用したテキストのみのデータを使用して推論能力を強化し、次にMGTステージはこれらの推論機能をマルチモーダルドメインに一般化します。
QWEN2.5-VL-INSTRUCT-3Bの実験は、\メソッドがそれぞれマルチモーダルおよびテキストのみのベンチマークのベースラインで4.83 \%および4.5 \%の平均改善を達成し、複雑なサッカーゲームタスクで3.63 \%のゲインを達成することを示しています。
これらの結果は、テキストベースの推論強化により効果的なマルチモーダル一般化が可能になり、高品質のマルチモーダルトレーニングデータをバイパスするデータ効率の良いパラダイムを提供することを検証します。

要約(オリジナル)

Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \textbf{\method}, a two-stage framework adapting rule-based RL for multimodal reasoning through \textbf{Foundational Reasoning Enhancement (FRE)} followed by \textbf{Multimodal Generalization Training (MGT)}. The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

arxiv情報

著者 Yingzhe Peng,Gongrui Zhang,Miaosen Zhang,Zhiyuan You,Jie Liu,Qipeng Zhu,Kai Yang,Xingzhong Xu,Xin Geng,Xu Yang
発行日 2025-03-10 17:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL はコメントを受け付けていません