Error Optimization: Overcoming Exponential Signal Decay in Deep Predictive Coding Networks

要約

予測コーディング(PC)は、ニューラルネットワークトレーニングのためのバックプロパゲーションの生物学的にもっともらしい代替品を提供しますが、より深いアーキテクチャとの闘いを提供します。
この論文は、根本原因を特定します。勾配が深さとともに指数関数的に減衰し、数値精度の制約のために計算的に無視できる固有の信号減衰問題。
この基本的な制限に対処するために、エラー最適化(EO)を導入します。これは、シグナル減衰を排除しながらPCの理論的特性を保存する新しい再分析です。
EOは、状態ではなく予測エラーを最適化することにより、信号がすべてのレイヤーに同時に、減衰せずに到達することを可能にし、標準のPCよりも数桁速く収束します。
複数のアーキテクチャとデータセットの実験は、EOが従来のPCが苦労しているより深いモデルでもBackPropagationのパフォーマンスに一致することを示しています。
実用的な改善に加えて、私たちの仕事はPCダイナミクスに対する理論的洞察を提供し、デジタルハードウェアおよびそれ以降のより深いアーキテクチャに生物学的にインスパイアされた学習を拡大するための基盤を確立します。

要約(オリジナル)

Predictive Coding (PC) offers a biologically plausible alternative to backpropagation for neural network training, yet struggles with deeper architectures. This paper identifies the root cause: an inherent signal decay problem where gradients attenuate exponentially with depth, becoming computationally negligible due to numerical precision constraints. To address this fundamental limitation, we introduce Error Optimization (EO), a novel reparameterization that preserves PC’s theoretical properties while eliminating signal decay. By optimizing over prediction errors rather than states, EO enables signals to reach all layers simultaneously and without attenuation, converging orders of magnitude faster than standard PC. Experiments across multiple architectures and datasets demonstrate that EO matches backpropagation’s performance even for deeper models where conventional PC struggles. Besides practical improvements, our work provides theoretical insight into PC dynamics and establishes a foundation for scaling biologically-inspired learning to deeper architectures on digital hardware and beyond.

arxiv情報

著者 Cédric Goemaere,Gaspard Oliviers,Rafal Bogacz,Thomas Demeester
発行日 2025-05-26 15:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Error Optimization: Overcoming Exponential Signal Decay in Deep Predictive Coding Networks はコメントを受け付けていません

StructEval: Benchmarking LLMs’ Capabilities to Generate Structural Outputs

要約

大規模な言語モデル(LLM)がソフトウェア開発ワークフローに不可欠になるにつれて、構造化された出力を生成する能力が非常に重要になりました。
LLMSの機能を評価するための包括的なベンチマークであるStructEvalを紹介します。
以前のベンチマークとは異なり、Structevalは、2つのパラダイムを介して多様な形式全体で構造的忠実度を体系的に評価します。1)生成タスク、自然言語プロンプトから構造化された出力を生成し、2)コンバージョンタスク、構造化された形式間を翻訳します。
当社のベンチマークには、18の形式と44種類のタスクが含まれており、形式の順守と構造的正しさのための新しいメトリックがあります。
結果は、O1-MINIのような最先端のモデルでさえ、75.58の平均スコアしか得られず、オープンソースの代替品が約10ポイント遅れていることを明らかにしています。
生成タスクは、変換タスクよりも困難であり、テキストのみの構造を生成するよりも正しい視覚コンテンツを生成するよりも難しいと感じています。

要約(オリジナル)

As Large Language Models (LLMs) become integral to software development workflows, their ability to generate structured outputs has become critically important. We introduce StructEval, a comprehensive benchmark for evaluating LLMs’ capabilities in producing both non-renderable (JSON, YAML, CSV) and renderable (HTML, React, SVG) structured formats. Unlike prior benchmarks, StructEval systematically evaluates structural fidelity across diverse formats through two paradigms: 1) generation tasks, producing structured output from natural language prompts, and 2) conversion tasks, translating between structured formats. Our benchmark encompasses 18 formats and 44 types of task, with novel metrics for format adherence and structural correctness. Results reveal significant performance gaps, even state-of-the-art models like o1-mini achieve only 75.58 average score, with open-source alternatives lagging approximately 10 points behind. We find generation tasks more challenging than conversion tasks, and producing correct visual content more difficult than generating text-only structures.

arxiv情報

著者 Jialin Yang,Dongfu Jiang,Lipeng He,Sherman Siu,Yuxuan Zhang,Disen Liao,Zhuofeng Li,Huaye Zeng,Yiming Jia,Haozhe Wang,Benjamin Schneider,Chi Ruan,Wentao Ma,Zhiheng Lyu,Yifei Wang,Yi Lu,Quy Duc Do,Ziyan Jiang,Ping Nie,Wenhu Chen
発行日 2025-05-26 15:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | StructEval: Benchmarking LLMs’ Capabilities to Generate Structural Outputs はコメントを受け付けていません

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

要約

空間計画は、空間インテリジェンスの分野で重要な部分であり、空間の観点からのオブジェクトの配置に関する理解と計画が必要です。
空間計画能力を備えたAIエージェントは、ロボット操作、自動アセンブリ、都市計画など、さまざまな現実世界のアプリケーションにより適応することができます。最近の作品は、マルチモーダル大手言語モデル(MLLM)の空間インテリジェンスを評価するためのベンチマークを構築しようとしました。
それにもかかわらず、これらのベンチマークは、主に典型的な視覚的質問(VQA)フォームに基づいた空間的推論に焦点を当てており、抽象的な空間的理解と具体的なタスクの実行の間のギャップに苦しんでいます。
この作業では、MineanyBuildと呼ばれる包括的なベンチマークを構築するためにさらに一歩進んで、MinecraftゲームのオープンワールドAIエージェントの空間計画能力を評価することを目指しています。
具体的には、MineanyBuildは、特定のマルチモーダルの人間の指示に基づいて、エージェントが実行可能なアーキテクチャ構築計画を生成することを要求しています。
4,000のキュレーションされた空間計画タスクが含まれ、リッチなプレーヤーで生成されたコンテンツを利用することにより、無限に拡張可能なデータ収集のパラダイムも提供します。
MineAnyBuildは、空間的理解、空間推論、創造性、空間的コモンセンスの4つのコアサポート次元を通じて空間計画を評価します。
MineanyBuildに基づいて、既存のMLLMベースのエージェントに対して包括的な評価を実行し、空間計画能力における深刻な制限があるが大きな可能性を明らかにしています。
私たちのMineanyBuildは、空間インテリジェンスの評価のための新しい道を開き、空間計画が可能なオープンワールドAIエージェントのさらなる開発を促進するのに役立つと考えています。

要約(オリジナル)

Spatial Planning is a crucial part in the field of spatial intelligence, which requires the understanding and planning about object arrangements in space perspective. AI agents with the spatial planning ability can better adapt to various real-world applications, including robotic manipulation, automatic assembly, urban planning etc. Recent works have attempted to construct benchmarks for evaluating the spatial intelligence of Multimodal Large Language Models (MLLMs). Nevertheless, these benchmarks primarily focus on spatial reasoning based on typical Visual Question-Answering (VQA) forms, which suffers from the gap between abstract spatial understanding and concrete task execution. In this work, we take a step further to build a comprehensive benchmark called MineAnyBuild, aiming to evaluate the spatial planning ability of open-world AI agents in the Minecraft game. Specifically, MineAnyBuild requires an agent to generate executable architecture building plans based on the given multi-modal human instructions. It involves 4,000 curated spatial planning tasks and also provides a paradigm for infinitely expandable data collection by utilizing rich player-generated content. MineAnyBuild evaluates spatial planning through four core supporting dimensions: spatial understanding, spatial reasoning, creativity, and spatial commonsense. Based on MineAnyBuild, we perform a comprehensive evaluation for existing MLLM-based agents, revealing the severe limitations but enormous potential in their spatial planning abilities. We believe our MineAnyBuild will open new avenues for the evaluation of spatial intelligence and help promote further development for open-world AI agents capable of spatial planning.

arxiv情報

著者 Ziming Wei,Bingqian Lin,Zijian Jiao,Yunshuang Nie,Liang Ma,Yuecheng Liu,Yuzheng Zhuang,Xiaodan Liang
発行日 2025-05-26 15:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents はコメントを受け付けていません

On the (Non) Injectivity of Piecewise Linear Janossy Pooling

要約

マルチセットをベクトルにマッピングする関数であるマルチセット関数は、マルチセットとグラフのニューラルネットワークの構築における基本的なツールです。
マルチセットのベクトル表現が忠実であることを保証するために、無視とbi-lipschitzの両方であるマルチセットマッピングを持つことが望ましいことがよくあります。
現在、これらの両方の保証を達成するマルチセット関数のいくつかの構造があり、一部のタスクでのパフォーマンスの改善につながりますが、多くの場合、標準構造よりも高い計算時間になります。
したがって、同じ保証を達成するよりシンプルなマルチセット関数が利用可能かどうかを尋ねるのは自然です。
この論文では、この質問に対して否定的な答えを出すための大きな一歩を踏み出します。
最も人気のあるマルチセットモデルの多くを含むK-Ary Janossy Poolingのファミリーを検討し、区分的な線形ヤヨセイプーリング関数が注射できないことを証明します。
正の側面では、多重性のないマルチセットに制限されている場合、単純な深層モデルでさえ、注射性と双片植物性に十分であることを示します。

要約(オリジナル)

Multiset functions, which are functions that map multisets to vectors, are a fundamental tool in the construction of neural networks for multisets and graphs. To guarantee that the vector representation of the multiset is faithful, it is often desirable to have multiset mappings that are both injective and bi-Lipschitz. Currently, there are several constructions of multiset functions achieving both these guarantees, leading to improved performance in some tasks but often also to higher compute time than standard constructions. Accordingly, it is natural to inquire whether simpler multiset functions achieving the same guarantees are available. In this paper, we make a large step towards giving a negative answer to this question. We consider the family of k-ary Janossy pooling, which includes many of the most popular multiset models, and prove that no piecewise linear Janossy pooling function can be injective. On the positive side, we show that when restricted to multisets without multiplicities, even simple deep-sets models suffice for injectivity and bi-Lipschitzness.

arxiv情報

著者 Ilai Reshef,Nadav Dym
発行日 2025-05-26 15:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the (Non) Injectivity of Piecewise Linear Janossy Pooling はコメントを受け付けていません

Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning

要約

言語モデルの効果的な一般化は、トレーニングデータの多様性に大きく依存します。
しかし、既存の多様性メトリックは、モデルの動作から切り離された表面レベルのヒューリスティックに依存して、この目標に依存することがよくあります。
これにより、トレーニングデータの多様性の種類が実際に言語モデルの一般化を促進し、どのように測定および増幅できますか?
データスケールと品質のために慎重に制御される300を超えるトレーニングの実行にまたがる大規模な経験的分析により、データの多様性は、見られない分散ベンチマークでの平均モデルパフォーマンスで測定されるLLM推論の一般化の強力な予測因子になる可能性があることを示しています。
モデル誘導勾配のエントロピーを介して多様性を定量化するメトリックであるG-Vendiを紹介します。
G-Vendiは、グラデーションに小さな既製のプロキシモデルを使用しているにもかかわらず、一貫して代替測定値を上回り、自然言語推論(NLI)と数学の推論タスクの両方で、分散除外(OOD)パフォーマンスを備えた強い相関(Spearmanの$ \ Rho \約0.9 $)を達成します。
この洞察に基づいて、勾配空間で過小評価された領域をターゲットにすることにより、多様な合成データを生成するためのフレームワークであるプリズム合成を提示します。
実験結果は、プリズム合成がモデルのパフォーマンスを一貫して改善することを示しています。これは、分配内のテストだけでなく、目に見えない分散式ベンチマーク全体で合成データを拡大するため、私たちの20倍の大規模なデータジェネレーターに依存する最先端のモデルを大幅に上回っています。
たとえば、32B LLMから蒸留されたモデルであるPrismmath-7Bは、R1-Distill-Qwen-7Bを上回ります。

要約(オリジナル)

Effective generalization in language models depends critically on the diversity of their training data. Yet existing diversity metrics often fall short of this goal, relying on surface-level heuristics that are decoupled from model behavior. This motivates us to ask: What kind of diversity in training data actually drives generalization in language models — and how can we measure and amplify it? Through large-scale empirical analyses spanning over 300 training runs, carefully controlled for data scale and quality, we show that data diversity can be a strong predictor of generalization in LLM reasoning — as measured by average model performance on unseen out-of-distribution benchmarks. We introduce G-Vendi, a metric that quantifies diversity via the entropy of model-induced gradients. Despite using a small off-the-shelf proxy model for gradients, G-Vendi consistently outperforms alternative measures, achieving strong correlation (Spearman’s $\rho \approx 0.9$) with out-of-distribution (OOD) performance on both natural language inference (NLI) and math reasoning tasks. Building on this insight, we present Prismatic Synthesis, a framework for generating diverse synthetic data by targeting underrepresented regions in gradient space. Experimental results show that Prismatic Synthesis consistently improves model performance as we scale synthetic data — not just on in-distribution test but across unseen, out-of-distribution benchmarks — significantly outperforming state-of-the-art models that rely on 20 times larger data generator than ours. For example, PrismMath-7B, our model distilled from a 32B LLM, outperforms R1-Distill-Qwen-7B — the same base model trained on proprietary data generated by 671B R1 — on 6 out of 7 challenging benchmarks.

arxiv情報

著者 Jaehun Jung,Seungju Han,Ximing Lu,Skyler Hallinan,David Acuna,Shrimai Prabhumoye,Mostafa Patwary,Mohammad Shoeybi,Bryan Catanzaro,Yejin Choi
発行日 2025-05-26 16:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning はコメントを受け付けていません

Capability-Based Scaling Laws for LLM Red-Teaming

要約

大規模な言語モデルが能力とエージェンシーが成長するにつれて、安全な展開に不可欠なレッドチーミングを通じて脆弱性を特定することが不可欠です。
ただし、従来の迅速なエンジニアリングアプローチは、レッドチーミングが弱い問題に変わると効果がないことが判明する可能性があり、ターゲットモデルは能力の赤みを帯びています。
このシフトを研究するために、攻撃者とターゲットの間の能力ギャップのレンズを介してレッドチームをフレーム化します。
LLMベースのジェイルブレイク攻撃を使用して、多様な家族、サイズ、能力レベルで人間の赤チームを模倣する500を超える攻撃者標的ペアを評価します。
3つの強力な傾向が現れます。(i)より有能なモデルはより良い攻撃者です。(ii)ターゲットの機能が攻撃者の機能を超えると、攻撃の成功は急激に低下し、(iii)攻撃の成功率は、MMLU-PROベンチマークの社会科学分割の高いパフォーマンスと相関します。
これらの傾向から、攻撃者のターゲット能力ギャップに基づいて、固定ターゲットの攻撃の成功を予測する脱獄スケーリング法を導き出します。
これらの調査結果は、固定能力攻撃者(たとえば、人間)が将来のモデルに対して効果がなく、ますます能力があるオープンソースモデルが既存のシステムのリスクを増幅する可能性があることを示唆しており、モデルプロバイダーは、攻撃者としての有効性を制限するためにモデルの説得力のある操作能力を正確に測定および制御する必要があります。

要約(オリジナル)

As large language models grow in capability and agency, identifying vulnerabilities through red-teaming becomes vital for safe deployment. However, traditional prompt-engineering approaches may prove ineffective once red-teaming turns into a weak-to-strong problem, where target models surpass red-teamers in capabilities. To study this shift, we frame red-teaming through the lens of the capability gap between attacker and target. We evaluate more than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic human red-teamers across diverse families, sizes, and capability levels. Three strong trends emerge: (i) more capable models are better attackers, (ii) attack success drops sharply once the target’s capability exceeds the attacker’s, and (iii) attack success rates correlate with high performance on social science splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking scaling law that predicts attack success for a fixed target based on attacker-target capability gap. These findings suggest that fixed-capability attackers (e.g., humans) may become ineffective against future models, increasingly capable open-source models amplify risks for existing systems, and model providers must accurately measure and control models’ persuasive and manipulative abilities to limit their effectiveness as attackers.

arxiv情報

著者 Alexander Panfilov,Paul Kassianik,Maksym Andriushchenko,Jonas Geiping
発行日 2025-05-26 16:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Capability-Based Scaling Laws for LLM Red-Teaming はコメントを受け付けていません

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

要約

オーディオ認識の大規模な言語モデル(ALLMS)は、最近、オーディオ入力を理解し、処理することに大きな進歩を遂げました。
これらのモデルは通常、オーディオ関連のタスクに関する追加のトレーニングを通じて、テキストベースの大手言語モデル(LLM)から適合しています。
ただし、この適応プロセスには2つの大きな制限があります。
第一に、Allmsはしばしば壊滅的な忘却に苦しんでいます。ここでは、オーディオデータのトレーニング後に命令フォローするなどの重要なテキスト能力が失われます。
場合によっては、モデルは入力オーディオに存在しない音を幻覚さえさえし、その信頼性について懸念を引き起こすことさえあります。
第二に、オーディオと言語の間のクロスモーダルアラインメントを達成することは、通常、命令調整のためにタスク固有の質問回答の大規模なコレクションに依存しており、プロセスをリソースを集中させます。
これらの問題に対処するために、ALLMSからバックボーンLLMを活用して、汎用キャプションスタイルのアライメントデータを合成します。
このプロセスは、Backbone LLMS(Balsa)からの合成データ生成を介したブートストラップオーディオ言語アライメントと呼びます。
Balsaに基づいて、ALLMSの存在音と存在しない音を区別する能力を向上させるために設計された対照的なトレーニング方法であるリスニング(拡張された負のサンプルを介してサウンドを識別することを学ぶ)を紹介します。
さらに、バルサをマルチオーディオシナリオに拡張します。モデルは、オーディオ入力の違いを説明するか、それらすべてを説明する統一されたキャプションを作成し、それによってオーディオ言語のアライメントを強化します。
実験結果は、私たちの方法がオーディオの幻覚を効果的に緩和しながら、オーディオの理解、推論、および指導に従うスキルの強力なパフォーマンスを確実に維持することを示しています。
さらに、マルチオーディオトレーニングを組み込むことで、モデルの理解と推論能力がさらに向上します。
全体として、バルサは、ALLMSの開発に効率的でスケーラブルなアプローチを提供します。

要約(オリジナル)

Audio-aware large language models (ALLMs) have recently made great strides in understanding and processing audio inputs. These models are typically adapted from text-based large language models (LLMs) through additional training on audio-related tasks. However, this adaptation process presents two major limitations. First, ALLMs often suffer from catastrophic forgetting, where important textual capabilities such as instruction-following are lost after training on audio data. In some cases, models may even hallucinate sounds that are not present in the input audio, raising concerns about their reliability. Second, achieving cross-modal alignment between audio and language typically relies on large collections of task-specific question-answer pairs for instruction tuning, making the process resource-intensive. To address these issues, we leverage the backbone LLMs from ALLMs to synthesize general-purpose caption-style alignment data. We refer to this process as bootstrapping audio-language alignment via synthetic data generation from backbone LLMs (BALSa). Building on BALSa, we introduce LISTEN (Learning to Identify Sounds Through Extended Negative Samples), a contrastive-like training method designed to improve ALLMs’ ability to distinguish between present and absent sounds. We further extend BALSa to multi-audio scenarios, where the model either explains the differences between audio inputs or produces a unified caption that describes them all, thereby enhancing audio-language alignment. Experimental results indicate that our method effectively mitigates audio hallucinations while reliably maintaining strong performance in audio understanding, reasoning, and instruction-following skills. Moreover, incorporating multi-audio training further enhances the model’s comprehension and reasoning capabilities. Overall, BALSa offers an efficient and scalable approach to the development of ALLMs.

arxiv情報

著者 Chun-Yi Kuan,Hung-yi Lee
発行日 2025-05-26 16:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data はコメントを受け付けていません

Program of Equations Thoughts to Solve Algebra Word Problems

要約

代数単語の問題(AWP)の解決は、最近、重要な自然言語処理タスクとして浮上しています。
最近、大規模な言語モデル(LLM)は強力な数学的能力を実証しており、段階的な推論を通してLLMを導く考えられたチェーンテクニックが印象的な結果をもたらしました。
ただし、この推論能力は、計算エラーが蓄積する可能性があるLLMS自体の計算の弱点によって制限され、最終回答が誤っています。
これに対処するために、方程式の思考プログラム(詩人)を提案します。これは、段階的な推論を生成するタスクを、方程式を予測し、コードを生成するという2段階のタスクに変換し、LLMSの計算エラーを回避するために複雑な計算をPythonインタープレーターにオフロードします。
さらに、ゼロショット詩人を提案します。これは、手動で設計されたテンプレートを利用して、LLMがワンステップ解決のためにPythonコードを直接生成できるようにすることを提案します。
私たちの方法は、それぞれPENおよびALG514データセットで95.3%と98.0%の精度を達成し、新しい最先端(SOTA)を設定します。
Zero-Shot Poetは、Draw-1Kデータセットで95.5%のSOTA結果も達成しています。

要約(オリジナル)

Solving algebraic word problems (AWPs) has recently emerged as an important natural language processing task. Recently, large language models (LLMs) have demonstrated powerful mathematical capabilities, and the Chain-of-Thought technique, which guides LLMs through step-by-step reasoning, has yielded impressive results. However, this reasoning ability is limited by the computational weaknesses of LLMs themselves, where calculation errors can accumulate, leading to incorrect final answers. To address this, we propose Program of Equations Thoughts (POET), which transforms the task of generating step-by-step reasoning answers into a two-stage task of predicting equations and generating code, offloading complex computations to a Python interpreter to avoid calculation errors in LLMs. Furthermore, we propose Zero-shot POET, which utilizes a manually designed template to enable LLMs to directly generate Python code for one-step solving. Our method achieves accuracies of 95.3% and 98.0% on the PEN and ALG514 datasets, respectively, setting a new state-of-the-art (SOTA). Zero-shot POET also achieves the SOTA result of 95.5% on the DRAW-1K dataset.

arxiv情報

著者 Yunze Lin
発行日 2025-05-26 16:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Program of Equations Thoughts to Solve Algebra Word Problems はコメントを受け付けていません

An Empirical Study on Strong-Weak Model Collaboration for Repo-level Code Generation

要約

弱いモデルがより低コストでシンプルなタスクを処理し、最も挑戦的なタスクが強力なモデルに委任されるリポジトリレベルのコード生成のための強力な言語モデルと弱い言語モデルのコスト効率の高いコラボレーションを研究します。
多くの作品がこのタスクのアーキテクチャを提案していますが、コストに比べてパフォーマンスを分析するものはほとんどありません。
GitHub発行解決に関するコンテキストベース、パイプラインベース、ダイナミックの幅広いコラボレーション戦略を評価します。
当社の最も効果的な共同戦略は、コストを40%削減しながら、強力なモデルと同等のパフォーマンスを達成します。
調査結果に基づいて、さまざまな予算とパフォーマンスの制約の下でコラボレーション戦略を選択するための実用的なガイドラインを提供します。
我々の結果は、強力なウィークコラボレーションが、コスト、パイプライン、コンテキストベースの方法のほんの一部で弱いモデルのパフォーマンスを大幅に向上させることを示しています。
https://github.com/shubhamrgandhi/codegen-strong-weak-collabで作業のコードをリリースします。

要約(オリジナル)

We study cost-efficient collaboration between strong and weak language models for repository-level code generation, where the weak model handles simpler tasks at lower cost, and the most challenging tasks are delegated to the strong model. While many works propose architectures for this task, few analyze performance relative to cost. We evaluate a broad spectrum of collaboration strategies: context-based, pipeline-based, and dynamic, on GitHub issue resolution. Our most effective collaborative strategy achieves equivalent performance to the strong model while reducing the cost by 40%. Based on our findings, we offer actionable guidelines for choosing collaboration strategies under varying budget and performance constraints. Our results show that strong-weak collaboration substantially boosts the weak model’s performance at a fraction of the cost, pipeline and context-based methods being most efficient. We release the code for our work at https://github.com/shubhamrgandhi/codegen-strong-weak-collab.

arxiv情報

著者 Shubham Gandhi,Atharva Naik,Yiqing Xie,Carolyn Rose
発行日 2025-05-26 16:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | An Empirical Study on Strong-Weak Model Collaboration for Repo-level Code Generation はコメントを受け付けていません

THiNK: Can Large Language Models Think-aloud?

要約

特に表面レベルの精度を超えるタスクにおいて、大規模な言語モデル(LLMS)の高次思考スキルを評価することは根本的な課題です。
この作業では、Bloomの分類法に基づいたマルチエージェントのフィードバック駆動型評価フレームワークであるThink(高次の知識の概念をテストする)を提案します。
評価評価の推論は、問題の生成、批評、および修正の反復タスクとして、LLMが段階的な反射と改良を通じて考えられるように奨励していると考えてください。
これにより、低次(例:覚えている、理解する)と高次(例:評価、作成)の両方の思考スキルの両方の体系的な評価が可能になります。
Thinkを7つの最先端のLLMに適用し、それらの出力の詳細な認知分析を実行します。
結果は、モデルがより低い次数のカテゴリをよく実行する一方で、現実的なコンテキストで知識を適用することに苦労し、限られた抽象化を示すことを明らかにしています。
構造化されたフィードバックループは、特に高次思考において、推論パフォーマンスを大幅に改善します。
定性的評価により、思考ガイド付きの出力がドメインロジックと問題構造とより適切に整合することがさらに確認されます。
私たちのフレームワークのコードは、LLMの推論を調査および強化するためのスケーラブルな方法論を提供し、GitHubリポジトリで入手可能な学習科学に基づいた評価のための新しい方向性を提供します。

要約(オリジナル)

Assessing higher-order thinking skills in large language models (LLMs) remains a fundamental challenge, especially in tasks that go beyond surface-level accuracy. In this work, we propose THiNK (Testing Higher-order Notion of Knowledge), a multi-agent, feedback-driven evaluation framework grounded in Bloom’s Taxonomy. THiNK frames reasoning assessment as an iterative task of problem generation, critique, and revision, encouraging LLMs to think-aloud through step-by-step reflection and refinement. This enables a systematic evaluation of both lower-order (e.g., remember, understand) and higher-order (e.g., evaluate, create) thinking skills. We apply THiNK to seven state-of-the-art LLMs and perform a detailed cognitive analysis of their outputs. Results reveal that while models reliably perform lower-order categories well, they struggle with applying knowledge in realistic contexts and exhibit limited abstraction. Structured feedback loops significantly improve reasoning performance, particularly in higher-order thinking. Qualitative evaluations further confirm that THiNK-guided outputs better align with domain logic and problem structure. The code of our framework provides a scalable methodology for probing and enhancing LLM reasoning, offering new directions for evaluation grounded in learning science, which is available at our GitHub repository.

arxiv情報

著者 Yongan Yu,Mengqian Wu,Yiran Lin,Nikki G. Lobczowski
発行日 2025-05-26 16:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | THiNK: Can Large Language Models Think-aloud? はコメントを受け付けていません