Dynamic Chain-of-Thought: Towards Adaptive Deep Reasoning

要約

この研究では、計算冗長性と長いCOTでの報酬の割り当ての遅延によって引き起こされるコンピューティングリソースのコストと消費を削減するために、適応的な推論時間と手順を備えた動的チェーン(D-COT)を提案しています。
研究者は、シミュレーション実験を使用して、GPTSに基づいたPythonシミュレーターと組み合わせたPython 3.13アイドルを介したD-COTの統合をシミュレートしました。
同時に、研究者はDeepSeek R1をコントロールグループとして使用して、MIT OpenCoursewareの線形代数試験の質問を処理する際のD-COTシミュレーターのパフォーマンスをテストおよび比較しました。
実験結果は、D-COTが3つの指標の長いCOTに基づいてDeepSeek R1よりも優れていることを示しています:推論時間、COTの長さ(推論ステップ)、トークンカウントは、コンピューティングリソース消費の大幅な削減を達成します。
さらに、この研究は、将来の動的な深い推論フレームワークのリファレンスとして使用される深い推論最適化に潜在的な価値を持っています。

要約(オリジナル)

To reduce the cost and consumption of computing resources caused by computational redundancy and delayed reward assignment in long CoT, this research proposes the dynamic chain-of-thought (D-CoT) with adaptive reasoning time and steps. The researcher used simulation experiment to simulate the integration of D-CoT through Python 3.13 IDLE combined with a Python simulator based on GPTs. At the same time, the researcher used DeepSeek R1 as a control group to test and compare the performance of the D-CoT simulator in processing MIT OpenCourseWare’s linear algebra exam questions. Experimental results show that D-CoT is better than DeepSeek R1 based on long CoT in three indicators: reasoning time, CoT length (reasoning steps) and token count, which achieves a significant reduction in computing resource consumption. In addition, this research has potential value in deep reasoning optimization that is used as a reference for future dynamic deep reasoning frameworks.

arxiv情報

著者 Libo Wang
発行日 2025-02-25 17:19:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Dynamic Chain-of-Thought: Towards Adaptive Deep Reasoning はコメントを受け付けていません

How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities

要約

検索は、さまざまなドメインにわたる問題解決において根本的な役割を果たし、ほとんどの現実世界の意思決定の問題は体系的な検索を通じて解決可能です。
検索と学習に関する最近の議論からインスピレーションを得て、3つの観点から検索モデル(LLM)の補完的な関係を体系的に探求します。
まず、学習が検索効率を高め、学習(SEAL)を介して検索を提案する方法を分析します。これは、効果的かつ効率的な検索のためにLLMを活用するフレームワークです。
第二に、SEAL-Cにさらに拡張して、検索中に厳しい完全性を確保します。
3つの実際の計画タスクにわたる評価は、シールが従来のアプローチと比較して検索スペースを最大99.1%削減しながら、ほぼ完璧な精度を達成することを示しています。
最後に、LLMが独立して検索機能を開発できるかどうかを調査することにより、実際の検索からどれだけ遠いかを調査します。
私たちの分析は、現在のLLMが複雑な問題で効率的な検索と闘っている一方で、体系的な検索戦略を組み込むことで問題解決能力が大幅に向上することを明らかにしています。
これらの調査結果は、アプローチの有効性を検証するだけでなく、実際のアプリケーションのLLMSの検索能力を改善する必要性を強調しています。

要約(オリジナル)

Search plays a fundamental role in problem-solving across various domains, with most real-world decision-making problems being solvable through systematic search. Drawing inspiration from recent discussions on search and learning, we systematically explore the complementary relationship between search and Large Language Models (LLMs) from three perspectives. First, we analyze how learning can enhance search efficiency and propose Search via Learning (SeaL), a framework that leverages LLMs for effective and efficient search. Second, we further extend SeaL to SeaL-C to ensure rigorous completeness during search. Our evaluation across three real-world planning tasks demonstrates that SeaL achieves near-perfect accuracy while reducing search spaces by up to 99.1% compared to traditional approaches. Finally, we explore how far LLMs are from real search by investigating whether they can develop search capabilities independently. Our analysis reveals that while current LLMs struggle with efficient search in complex problems, incorporating systematic search strategies significantly enhances their problem-solving capabilities. These findings not only validate the effectiveness of our approach but also highlight the need for improving LLMs’ search abilities for real-world applications.

arxiv情報

著者 Minhua Lin,Hui Liu,Xianfeng Tang,Jingying Zeng,Zhenwei Dai,Chen Luo,Zheng Li,Xiang Zhang,Qi He,Suhang Wang
発行日 2025-02-25 17:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities はコメントを受け付けていません

The Gradient of Algebraic Model Counting

要約

代数モデルカウントは、セミリングを悪用することにより、論理式に関する多くの推論タスクを統合します。
推論に焦点を合わせるのではなく、学習、特に論理的、確率的、神経表現を組み合わせた統計的関連および神経反応質AIにおける学習を検討します。
具体的には、代数モデルのカウントとまったく同じ半視点が学習にも当てはまることを示します。
これにより、勾配とバックプロパゲーションをさまざまなセミリングに一般化することにより、さまざまな学習アルゴリズムを統合できます。
さらに、よりメモリ効率の高いバックプロパゲーションのために、セマイニングのキャンセルと順序付け特性をどのように活用できるかを示します。
これにより、確率論的論理モデルの最先端の勾配ベースの最適化方法の興味深いバリエーションをいくつか取得できます。
また、扱いやすい回路をカウントする代数モデルが、より効率的な2次の最適化につながらない理由についても説明します。
経験的には、私たちの代数のバックプロパゲーションは、既存のアプローチと比較してかなりのスピードアップを示します。

要約(オリジナル)

Algebraic model counting unifies many inference tasks on logic formulas by exploiting semirings. Rather than focusing on inference, we consider learning, especially in statistical-relational and neurosymbolic AI, which combine logical, probabilistic and neural representations. Concretely, we show that the very same semiring perspective of algebraic model counting also applies to learning. This allows us to unify various learning algorithms by generalizing gradients and backpropagation to different semirings. Furthermore, we show how cancellation and ordering properties of a semiring can be exploited for more memory-efficient backpropagation. This allows us to obtain some interesting variations of state-of-the-art gradient-based optimisation methods for probabilistic logical models. We also discuss why algebraic model counting on tractable circuits does not lead to more efficient second-order optimization. Empirically, our algebraic backpropagation exhibits considerable speed-ups as compared to existing approaches.

arxiv情報

著者 Jaron Maene,Luc De Raedt
発行日 2025-02-25 17:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | The Gradient of Algebraic Model Counting はコメントを受け付けていません

AgentRM: Enhancing Agent Generalization with Reward Modeling

要約

既存のLLMベースのエージェントは、開催されたタスクで強力なパフォーマンスを達成していますが、目に見えないタスクに対する一般化可能性は依然として不十分です。
したがって、いくつかの最近の作業は、一般化を改善するためのより多様なタスクでポリシーモデルを微調整することに焦点を当てています。
この作業では、ポリシーモデルをガイドするための報酬モデルを微調整することは、ポリシーモデルを直接微調整するよりも堅牢であることがわかります。
この発見に基づいて、効果的なテスト時間検索のためにポリシーモデルを導くために、一般化可能な報酬モデルであるAgentRMを提案します。
We comprehensively investigate three approaches to construct the reward model, including explicit reward modeling, implicit reward modeling and LLM-as-a-judge.
次に、agentRMを使用して、Best-of-nサンプリングとステップレベルのビーム検索で回答生成をガイドします。
4種類の9つのエージェントタスクでは、AgentRMは平均して基本ポリシーモデルを$ 8.8 $ポイント増強し、上位の一般エージェントを$ 4.0 $で上回ります。
さらに、Llama-3-70Bのポリシーモデルでは、弱くて強力な一般化を示しており、12.6ドルの改善をもたらします。
専門性に関しては、AgentRMは、Finetuned Policy Modelを高め、3つの保有タスクでTOP専門エージェントを$ 11.4 $で上回ることもできます。
さらなる分析により、テスト時間スケーリングの有効性が確認されます。
この分野での研究を促進するために、コードがリリースされます。

要約(オリジナル)

Existing LLM-based agents have achieved strong performance on held-in tasks, but their generalizability to unseen tasks remains poor. Hence, some recent work focus on fine-tuning the policy model with more diverse tasks to improve the generalizability. In this work, we find that finetuning a reward model to guide the policy model is more robust than directly finetuning the policy model. Based on this finding, we propose AgentRM, a generalizable reward model, to guide the policy model for effective test-time search. We comprehensively investigate three approaches to construct the reward model, including explicit reward modeling, implicit reward modeling and LLM-as-a-judge. We then use AgentRM to guide the answer generation with Best-of-N sampling and step-level beam search. On four types of nine agent tasks, AgentRM enhances the base policy model by $8.8$ points on average, surpassing the top general agent by $4.0$. Moreover, it demonstrates weak-to-strong generalization, yielding greater improvement of $12.6$ on LLaMA-3-70B policy model. As for the specializability, AgentRM can also boost a finetuned policy model and outperform the top specialized agent by $11.4$ on three held-in tasks. Further analysis verifies its effectiveness in test-time scaling. Codes will be released to facilitate the research in this area.

arxiv情報

著者 Yu Xia,Jingru Fan,Weize Chen,Siyu Yan,Xin Cong,Zhong Zhang,Yaxi Lu,Yankai Lin,Zhiyuan Liu,Maosong Sun
発行日 2025-02-25 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AgentRM: Enhancing Agent Generalization with Reward Modeling はコメントを受け付けていません

TSKANMixer: Kolmogorov-Arnold Networks with MLP-Mixer Model for Time Series Forecasting

要約

時系列の予測は、経済学、エネルギー、ヘルスケア、交通管理など、多様な分野での研究の焦点でした。
最近の作品は、時系列ミキサー(TSMixer)などの時系列モデルの革新的なアーキテクチャを導入しました。これは、データ内の空間的依存関係と時間的依存関係の両方を効果的にキャプチャすることにより、多層パーセプロン(MLPS)を活用して予測精度を高めることができます。
この論文では、Kan層(Tskanmixer)でTSMixerを変更することにより、時系列予測のためのKolmogorov-Arnold Networks(Kans)の機能を調査します。
実験結果は、Tskanmixerが複数のデータセットにわたって元のTSMixerの予測精度を改善する傾向があることを示しています。
私たちの結果は、カンズが従来のMLPを交換または延長することにより、時系列予測のパフォーマンスを改善するための有望な代替案であることを示しています。

要約(オリジナル)

Time series forecasting has long been a focus of research across diverse fields, including economics, energy, healthcare, and traffic management. Recent works have introduced innovative architectures for time series models, such as the Time-Series Mixer (TSMixer), which leverages multi-layer perceptrons (MLPs) to enhance prediction accuracy by effectively capturing both spatial and temporal dependencies within the data. In this paper, we investigate the capabilities of the Kolmogorov-Arnold Networks (KANs) for time-series forecasting by modifying TSMixer with a KAN layer (TSKANMixer). Experimental results demonstrate that TSKANMixer tends to improve prediction accuracy over the original TSMixer across multiple datasets, ranking among the top-performing models compared to other time series approaches. Our results show that the KANs are promising alternatives to improve the performance of time series forecasting by replacing or extending traditional MLPs.

arxiv情報

著者 Young-Chae Hong,Bei Xiao,Yangho Chen
発行日 2025-02-25 18:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TSKANMixer: Kolmogorov-Arnold Networks with MLP-Mixer Model for Time Series Forecasting はコメントを受け付けていません

Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models

要約

強化学習フィードバックを使用して大規模な言語モデル(LLM)をトレーニングする現在の方法は、トレーニング中に複数の報酬関数の平均化に頼ることがよくあります。
これは、世代の最適下の結果につながる可能性のある個々の報酬の寸法と報酬間依存関係の重要な側面を見落としています。
この作業では、報酬の線形集約が、生成されたテキストの望ましくない特性につながる可能性のあるいくつかの脆弱性をどのように示すかを示します。
次に、ユーティリティ関数の経済理論(特にINADA条件)に触発された報酬機能の変革を提案します。これは、低報酬値に対する感度を高め、すでに高い値に対する感度を低下させます。
私たちのアプローチを、報酬を直線的に集約する既存のベースラインメソッドと比較し、稲田にインスパイアされた報酬フィードバックが従来の加重平均よりも優れていることを示します。
メソッドの違いを定量的かつ定性的に分析し、Inada変換スコアで訓練されたモデルが有害ではなく、より役立つと見ています。

要約(オリジナル)

Current methods that train large language models (LLMs) with reinforcement learning feedback, often resort to averaging outputs of multiple rewards functions during training. This overlooks crucial aspects of individual reward dimensions and inter-reward dependencies that can lead to sub-optimal outcomes in generations. In this work, we show how linear aggregation of rewards exhibits some vulnerabilities that can lead to undesired properties of generated text. We then propose a transformation of reward functions inspired by economic theory of utility functions (specifically Inada conditions), that enhances sensitivity to low reward values while diminishing sensitivity to already high values. We compare our approach to the existing baseline methods that linearly aggregate rewards and show how the Inada-inspired reward feedback is superior to traditional weighted averaging. We quantitatively and qualitatively analyse the difference in the methods, and see that models trained with Inada-transformations score as more helpful while being less harmful.

arxiv情報

著者 Roberto-Rafael Maura-Rivero,Chirag Nagpal,Roma Patel,Francesco Visin
発行日 2025-02-25 18:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, econ.GN, q-fin.EC | Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models はコメントを受け付けていません

Comparative Analysis of MDL-VAE vs. Standard VAE on 202 Years of Gynecological Data

要約

この研究では、高次元の婦人科データを再構築するための標準自動エンコーダーに対する最小記述長(MDL)の正則化で強化された変分自動エンコーダー(VAE)の比較評価を提示します。
MDL-VAEは、効果的なKL発散の正則化によって駆動される、再構成エラー(MSE、MAE、RMSE)とより構造化された潜在表現を大幅に低下させます。
統計分析は、これらのパフォーマンスの改善が重要であることを確認しています。
さらに、MDL-VAEは一貫したトレーニングと検証の損失を示し、効率的な推論時間を達成し、その堅牢性と実用的な実行可能性を強調しています。
我々の調査結果は、MDL原則をVAEアーキテクチャに組み込むことで、データの再構成と一般化を大幅に改善し、ヘルスケアデータのモデリングと分析における高度なアプリケーションの有望なアプローチとなることを示唆しています。

要約(オリジナル)

This study presents a comparative evaluation of a Variational Autoencoder (VAE) enhanced with Minimum Description Length (MDL) regularization against a Standard Autoencoder for reconstructing high-dimensional gynecological data. The MDL-VAE exhibits significantly lower reconstruction errors (MSE, MAE, RMSE) and more structured latent representations, driven by effective KL divergence regularization. Statistical analyses confirm these performance improvements are significant. Furthermore, the MDL-VAE shows consistent training and validation losses and achieves efficient inference times, underscoring its robustness and practical viability. Our findings suggest that incorporating MDL principles into VAE architectures can substantially improve data reconstruction and generalization, making it a promising approach for advanced applications in healthcare data modeling and analysis.

arxiv情報

著者 Paula Santos
発行日 2025-02-25 18:05:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Comparative Analysis of MDL-VAE vs. Standard VAE on 202 Years of Gynecological Data はコメントを受け付けていません

From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks

要約

安全で整列したエージェントAIシステムを開発するには、包括的な経験的テストが必要ですが、多くの既存のベンチマークは、生物学と経済学に沿った重要なテーマを無視しています。
このギャップに対処するために、現在の研究は、AIの安全性に関する現在の主流の議論、すなわち、境界および生物学的目的の恒常性を強調する多目的、マルチエージェントアライメントベンチマークのセットで、生物学的および経済的に動機付けられたテーマの導入に焦点を当てています。
無制限、インストゥルメンタル、ビジネスの目標、持続可能性の原則、およびリソース共有のリターンの減少。
上記のテーマに8つの主要なベンチマーク環境を実装し、恒常的に恒常性の目標を最大化したり、他の人を犠牲にして目的を過度に最適化したり、安全上の制約を無視したり、共有リソースを枯渇させるなど、エージェントAI-Sの重要な落とし穴と課題を説明しました。

要約(オリジナル)

Developing safe, aligned agentic AI systems requires comprehensive empirical testing, yet many existing benchmarks neglect crucial themes aligned with biology and economics, both time-tested fundamental sciences describing our needs and preferences. To address this gap, the present work focuses on introducing biologically and economically motivated themes that have been neglected in current mainstream discussions on AI safety – namely a set of multi-objective, multi-agent alignment benchmarks that emphasize homeostasis for bounded and biological objectives, diminishing returns for unbounded, instrumental, and business objectives, sustainability principle, and resource sharing. We implemented eight main benchmark environments on the above themes, to illustrate key pitfalls and challenges in agentic AI-s, such as unboundedly maximizing a homeostatic objective, over-optimizing one objective at the expense of others, neglecting safety constraints, or depleting shared resources.

arxiv情報

著者 Roland Pihlakas,Joel Pyykkö
発行日 2025-02-25 18:13:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks はコメントを受け付けていません

PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback

要約

STEMコースでの学生の割り当てのグレーディングは、家庭教師にとって面倒で反復的なタスクであり、多くの場合、クラス全体を評価するために1週間かかります。
学生の場合、フィードバックのこの遅延により、誤ったソリューションの反復が防止され、学習を妨げ、運動スコアが最終試験への入場を決定するとストレスが増加します。
自動化されたグレーディングや個別指導システムなどのAIアシスト教育における最近の進歩は、即時のフィードバックを提供し、グレーディングワークロードを削減することにより、これらの課題に対処することを目指しています。
ただし、プライバシーの懸念、独自の閉鎖モデルへの依存、マークダウン、ラテックス、Pythonコードの組み合わせのサポートの欠如、またはグレーディングプロセスからのコースチューターの除外により、既存のソリューションが不足していることがよくあります。
これらの制限を克服するために、AIアシスト評価システムであるPyevalaiを導入します。これは、ユニットテストとローカルホストの言語モデルの組み合わせを使用してプライバシーを維持するためにJupyterノートブックを自動的にスコアスコアリングします。
私たちのアプローチは無料でオープンソースであり、チューターがグレーディングプロセスを完全に制御することを保証します。
ケーススタディでは、数字に関する大学レベルのコースでのエクササイズのフィードバック速度とグレーディング効率の向上における有効性を示しています。

要約(オリジナル)

Grading student assignments in STEM courses is a laborious and repetitive task for tutors, often requiring a week to assess an entire class. For students, this delay of feedback prevents iterating on incorrect solutions, hampers learning, and increases stress when exercise scores determine admission to the final exam. Recent advances in AI-assisted education, such as automated grading and tutoring systems, aim to address these challenges by providing immediate feedback and reducing grading workload. However, existing solutions often fall short due to privacy concerns, reliance on proprietary closed-source models, lack of support for combining Markdown, LaTeX and Python code, or excluding course tutors from the grading process. To overcome these limitations, we introduce PyEvalAI, an AI-assisted evaluation system, which automatically scores Jupyter notebooks using a combination of unit tests and a locally hosted language model to preserve privacy. Our approach is free, open-source, and ensures tutors maintain full control over the grading process. A case study demonstrates its effectiveness in improving feedback speed and grading efficiency for exercises in a university-level course on numerics.

arxiv情報

著者 Nils Wandel,David Stotko,Alexander Schier,Reinhard Klein
発行日 2025-02-25 18:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback はコメントを受け付けていません

TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning

要約

推論は、大規模な言語モデル(LLM)の基本的な能力であり、複雑な問題を理解、分析、解決できるようにします。
この論文では、パターン認識、空間認識、算数、および論理的推論の高度なスキルを必要とする厳しいテキストベースのゲームを通じてLLMを評価するために特別に作成された革新的なベンチマークであるTextGamesを紹介します。
分析は、単一ターンとマルチターンの両方の推論の両方でLLMSのパフォーマンスを調査し、フィードバックを活用して自己反省を通じてその後の回答を修正する能力を調査します。
私たちの調査結果は、LLMが最も簡単で中レベルの問題に対処するのに習熟度を示しているが、より困難なタスクで重要な課題に直面していることを明らかにしています。
対照的に、人間は十分な時間が与えられた場合、すべてのタスクを解くことができます。
さらに、LLMSは、自己反省を通じてマルチターン予測のパフォーマンスの向上を示しているが、それでも一貫して複雑なルールに従うことに苦労していることを観察しています。
さらに、推論のために最適化されたモデルは、次の命令に優先順位を付ける事前に訓練されたLLMを上回り、非常に複雑な問題に対処する際の推論スキルの重要な役割を強調しています。

要約(オリジナル)

Reasoning is a fundamental capability of large language models (LLMs), enabling them to comprehend, analyze, and solve complex problems. In this paper, we introduce TextGames, an innovative benchmark specifically crafted to assess LLMs through demanding text-based games that require advanced skills in pattern recognition, spatial awareness, arithmetic, and logical reasoning. Our analysis probes LLMs’ performance in both single-turn and multi-turn reasoning, and their abilities in leveraging feedback to correct subsequent answers through self-reflection. Our findings reveal that, although LLMs exhibit proficiency in addressing most easy and medium-level problems, they face significant challenges with more difficult tasks. In contrast, humans are capable of solving all tasks when given sufficient time. Moreover, we observe that LLMs show improved performance in multi-turn predictions through self-reflection, yet they still struggle with sequencing, counting, and following complex rules consistently. Additionally, models optimized for reasoning outperform pre-trained LLMs that prioritize instruction following, highlighting the crucial role of reasoning skills in addressing highly complex problems.

arxiv情報

著者 Frederikus Hudi,Genta Indra Winata,Ruochen Zhang,Alham Fikri Aji
発行日 2025-02-25 18:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning はコメントを受け付けていません