Neural Network-Based Change Point Detection for Large-Scale Time-Evolving Data

要約

このペーパーでは、多変量時間発生データの変化点を検出して検索する問題を研究しています。
問題には統計と信号処理に長い歴史があり、さまざまなアルゴリズムが主に単純なパラメトリックモデル向けに開発されています。
この作業では、フィードフォワードニューラルネットワークを介してデータのモデリングに焦点を当て、次の2段階の手順に基づいて検出戦略を開発します。
最初のステップでは、ニューラルネットワークは、データの事前に指定されたウィンドウでトレーニングされ、そのテストエラー関数は別の事前に指定されたウィンドウで校正されます。
次に、テストエラー関数が移動ウィンドウで使用され、変更点を識別します。
変更点が検出されると、これらの2つのステップを含む手順は、すべての変更点が特定されるまで繰り返されます。
提案された戦略は、データ生成プロセスの時間的依存の下での変化ポイントの数と位置の両方の一貫した推定値をもたらします。
提案された戦略の有効性は、アルゴリズムの実際のチューニングパラメーターと実際のデータセットを選択する方法に関する洞察を提供する合成データセットに示されています。
最後に、検出戦略は一般的であり、さまざまなニューラルネットワークアーキテクチャで動作できるが、提供される理論的保証はフィードフォワードニューラルアーキテクチャに固有のものであることに注意してください。

要約(オリジナル)

The paper studies the problem of detecting and locating change points in multivariate time-evolving data. The problem has a long history in statistics and signal processing and various algorithms have been developed primarily for simple parametric models. In this work, we focus on modeling the data through feed-forward neural networks and develop a detection strategy based on the following two-step procedure. In the first step, the neural network is trained over a prespecified window of the data, and its test error function is calibrated over another prespecified window. Then, the test error function is used over a moving window to identify the change point. Once a change point is detected, the procedure involving these two steps is repeated until all change points are identified. The proposed strategy yields consistent estimates for both the number and the locations of the change points under temporal dependence of the data-generating process. The effectiveness of the proposed strategy is illustrated on synthetic data sets that provide insights on how to select in practice tuning parameters of the algorithm and in real data sets. Finally, we note that although the detection strategy is general and can work with different neural network architectures, the theoretical guarantees provided are specific to feed-forward neural architectures.

arxiv情報

著者 Jialiang Geng,George Michailidis
発行日 2025-03-12 16:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ME, stat.ML | Neural Network-Based Change Point Detection for Large-Scale Time-Evolving Data はコメントを受け付けていません

A Generative Framework for Predictive Modeling of Multiple Chronic Conditions Using Graph Variational Autoencoder and Bandit-Optimized Graph Neural Network

要約

MCCが患者の転帰とヘルスケアコストに大きな影響を与えるため、複数の慢性疾患(MCC)の出現(MCC)の出現を予測することは重要です。
グラフニューラルネットワーク(GNNS)は、MCCに見られるような複雑なグラフデータをモデル化するための効果的な方法です。
ただし、GNNSの重要な課題は、既存のグラフ構造に依存することです。これは、MCCが容易に入手できません。
この課題に対処するために、データの分布を利用してMCCの予測分析を強化することにより、代表的な基礎となるグラフ構造を構築するGNNの新しい生成フレームワークを提案します。
私たちのフレームワークでは、グラフ変異オートエンコーダー(GVAE)を採用して、患者データの複雑な関係をキャプチャします。
これにより、個々の健康軌跡を包括的に理解することができ、元の機能セットを保持しながら、多様な患者の確率的類似性グラフの作成を促進します。
次に、GVAEデコーダーから生成された患者の確率的類似性グラフのこれらのバリエーションは、新しいLaplacian Remulization技術を使用してGNNによって処理され、時間の経過とともにグラフ構造を改良し、MCCの予測精度を向上させます。
コンテキストバンディットは、確率的に生成されたグラフを評価し、モデルの収束までGNNモデルの最良のパフォーマンスグラフを反復的に識別するように設計されています。
MCC患者の大規模コホート(n = 1,592)で、$ \ varepsilon $ greedyおよびMulti-aremed Banditアルゴリズムに対する提案されたコンテキストバンディットアルゴリズムのパフォーマンスを検証します。
これらの進歩は、予測医療分析を変換するための提案されたアプローチの可能性を強調し、MCC管理に対するよりパーソナライズされ積極的なアプローチを可能にします。

要約(オリジナル)

Predicting the emergence of multiple chronic conditions (MCC) is crucial for early intervention and personalized healthcare, as MCC significantly impacts patient outcomes and healthcare costs. Graph neural networks (GNNs) are effective methods for modeling complex graph data, such as those found in MCC. However, a significant challenge with GNNs is their reliance on an existing graph structure, which is not readily available for MCC. To address this challenge, we propose a novel generative framework for GNNs that constructs a representative underlying graph structure by utilizing the distribution of the data to enhance predictive analytics for MCC. Our framework employs a graph variational autoencoder (GVAE) to capture the complex relationships in patient data. This allows for a comprehensive understanding of individual health trajectories and facilitates the creation of diverse patient stochastic similarity graphs while preserving the original feature set. These variations of patient stochastic similarity graphs, generated from the GVAE decoder, are then processed by a GNN using a novel Laplacian regularization technique to refine the graph structure over time and improves the prediction accuracy of MCC. A contextual Bandit is designed to evaluate the stochastically generated graphs and identify the best-performing graph for the GNN model iteratively until model convergence. We validate the performance of the proposed contextual Bandit algorithm against $\varepsilon$-Greedy and multi-armed Bandit algorithms on a large cohort (n = 1,592) of patients with MCC. These advancements highlight the potential of the proposed approach to transform predictive healthcare analytics, enabling a more personalized and proactive approach to MCC management.

arxiv情報

著者 Julian Carvajal Rico,Adel Alaeddini,Syed Hasib Akhter Faruqui,Susan P Fisher-Hoch,Joseph B Mccormick
発行日 2025-03-12 17:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Generative Framework for Predictive Modeling of Multiple Chronic Conditions Using Graph Variational Autoencoder and Bandit-Optimized Graph Neural Network はコメントを受け付けていません

Strategyproof Reinforcement Learning from Human Feedback

要約

私たちは、多様な好みを持つ複数の個人が、最終的なポリシーを有利に揺さぶるために戦略的にフィードバックを提供する人間のフィードバック(RLHF)から強化学習を研究しています。
既存のRLHFメソッドは戦略的なプルーフではないことを示しています。これにより、$ K $の個人のうち1人だけが好みを戦略的に報告している場合でも、実質的に並列されたポリシーを学習する可能性があります。
また、戦略的なRLHFアルゴリズムは、インセンティブアライメントとポリシーアラインメントの間の固有のトレードオフを強調して、最適なポリシーよりも$ k $ k-timesを実行する必要があることがわかります。
次に、適切なカバレッジの仮定の下で、ほぼ戦略的なプルーフであり、個人とサンプルの数が増えるにつれて最適なポリシーに収束する悲観的な中央値アルゴリズムを提案します。

要約(オリジナル)

We study Reinforcement Learning from Human Feedback (RLHF), where multiple individuals with diverse preferences provide feedback strategically to sway the final policy in their favor. We show that existing RLHF methods are not strategyproof, which can result in learning a substantially misaligned policy even when only one out of $k$ individuals reports their preferences strategically. In turn, we also find that any strategyproof RLHF algorithm must perform $k$-times worse than the optimal policy, highlighting an inherent trade-off between incentive alignment and policy alignment. We then propose a pessimistic median algorithm that, under appropriate coverage assumptions, is approximately strategyproof and converges to the optimal policy as the number of individuals and samples increases.

arxiv情報

著者 Thomas Kleine Buening,Jiarui Gan,Debmalya Mandal,Marta Kwiatkowska
発行日 2025-03-12 17:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Strategyproof Reinforcement Learning from Human Feedback はコメントを受け付けていません

Manify: A Python Library for Learning Non-Euclidean Representations

要約

非ユークリッド代表学習のためのオープンソースPythonライブラリであるManifyを紹介します。
マニホールド学習技術を活用するManifyは、非職人空間の積、そのような空間に存在するデータで分類と回帰を実行し、マニホールドの曲率を推定するための埋め込みを学習するためのツールを提供します。
Manifyは、マニホールドベースのデータ分析のための包括的なツールスイートを提供することにより、機械学習の研究とアプリケーションを前進させることを目的としています。
ソースコード、例、データセット、結果、およびドキュメントは、https://github.com/pchlenski/manifyで入手できます。

要約(オリジナル)

We present Manify, an open-source Python library for non-Euclidean representation learning. Leveraging manifold learning techniques, Manify provides tools for learning embeddings in (products of) non-Euclidean spaces, performing classification and regression with data that lives in such spaces, and estimating the curvature of a manifold. Manify aims to advance research and applications in machine learning by offering a comprehensive suite of tools for manifold-based data analysis. Our source code, examples, datasets, results, and documentation are available at https://github.com/pchlenski/manify

arxiv情報

著者 Philippe Chlenski,Kaizhu Du,Dylan Satow,Itsik Pe’er
発行日 2025-03-12 17:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Manify: A Python Library for Learning Non-Euclidean Representations はコメントを受け付けていません

Minimax Optimality of the Probability Flow ODE for Diffusion Models

要約

スコアベースの拡散モデルは、最新の生成モデリングの基礎パラダイムになり、複雑な高次元分布からサンプルを生成する際の例外的な能力を示しています。
確率フローオードベースのサンプラーが優れたサンプリング効率と精度のために、実際にはオードベースのサンプラーが支配的に採用されているにもかかわらず、これらの方法の厳格な統計的保証は文献ではとらえどころのないままです。
この作業は、ターゲットデータ分布に関する軽度の仮定の下でほぼミニマックスの最適保証を確立する決定論的オードベースのサンプラーのための最初のエンドツーエンドの理論的フレームワークを開発します。
具体的には、$ \ beta $ -h \ ‘$ \ beta \ leq 2 $の古い滑らかな密度を備えたサブガウス分布に焦点を当てて、$ l^2 $スコアエラーと関連する平均jacobianエラーの両方を同時に制御するスムーズな正規化スコア推定器を提案します。
ODEベースのサンプリングプロセスの洗練された収束分析内でこの推定器を活用すると、結果のサンプラーが総変動距離、モジュロ対数因子でミニマックスレートを達成することを示します。
特に、我々の理論は、サンプリングプロセスのすべてのエラー源を包括的に説明しており、標的分布の密度下限やリプシッツ/スムーズスコアなどの強力な構造条件を必要としないため、幅広い実用的なデータ分布をカバーしています。

要約(オリジナル)

Score-based diffusion models have become a foundational paradigm for modern generative modeling, demonstrating exceptional capability in generating samples from complex high-dimensional distributions. Despite the dominant adoption of probability flow ODE-based samplers in practice due to their superior sampling efficiency and precision, rigorous statistical guarantees for these methods have remained elusive in the literature. This work develops the first end-to-end theoretical framework for deterministic ODE-based samplers that establishes near-minimax optimal guarantees under mild assumptions on target data distributions. Specifically, focusing on subgaussian distributions with $\beta$-H\’older smooth densities for $\beta\leq 2$, we propose a smooth regularized score estimator that simultaneously controls both the $L^2$ score error and the associated mean Jacobian error. Leveraging this estimator within a refined convergence analysis of the ODE-based sampling process, we demonstrate that the resulting sampler achieves the minimax rate in total variation distance, modulo logarithmic factors. Notably, our theory comprehensively accounts for all sources of error in the sampling process and does not require strong structural conditions such as density lower bounds or Lipschitz/smooth scores on target distributions, thereby covering a broad range of practical data distributions.

arxiv情報

著者 Changxiao Cai,Gen Li
発行日 2025-03-12 17:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH | Minimax Optimality of the Probability Flow ODE for Diffusion Models はコメントを受け付けていません

Parsing the Language of Expression: Enhancing Symbolic Regression with Domain-Aware Symbolic Priors

要約

象徴的な回帰は、データ内の数学的および物理的関係を公開することにより、複雑な現象を解明する解釈可能な表現を導き出すために不可欠です。
このホワイトペーパーでは、物理学、生物学、化学、工学など、多様な科学的領域からシンボルプライアーを統合する高度なシンボリック回帰法を回帰プロセスに統合する高度なシンボリック回帰法を提示します。
ドメイン固有の式を体系的に分析することにより、シンボルの確率分布を導き出して、表現生成を導きます。
これらのシンボルプリオールを活用する新しい樹木構造の再構築された再発性ニューラルネットワーク(RNNS)を提案し、ドメインの知識が学習プロセスを操縦できるようにします。
さらに、より効率的な学習を促進するために統一オペレーターとバイナリ演算子が組織されている表現を表すための階層ツリー構造を導入します。
トレーニングをさらに加速するために、各ドメインから特徴的な式ブロックをコンパイルし、それらをオペレーター辞書に含めて、関連するビルディングブロックを提供します。
実験結果は、シンボルのレバレッジプレイアがシンボリック回帰のパフォーマンスを大幅に向上させ、より速い収束とより高い精度をもたらすことを示しています。

要約(オリジナル)

Symbolic regression is essential for deriving interpretable expressions that elucidate complex phenomena by exposing the underlying mathematical and physical relationships in data. In this paper, we present an advanced symbolic regression method that integrates symbol priors from diverse scientific domains – including physics, biology, chemistry, and engineering – into the regression process. By systematically analyzing domain-specific expressions, we derive probability distributions of symbols to guide expression generation. We propose novel tree-structured recurrent neural networks (RNNs) that leverage these symbol priors, enabling domain knowledge to steer the learning process. Additionally, we introduce a hierarchical tree structure for representing expressions, where unary and binary operators are organized to facilitate more efficient learning. To further accelerate training, we compile characteristic expression blocks from each domain and include them in the operator dictionary, providing relevant building blocks. Experimental results demonstrate that leveraging symbol priors significantly enhances the performance of symbolic regression, resulting in faster convergence and higher accuracy.

arxiv情報

著者 Sikai Huang,Yixin Berry Wen,Tara Adusumilli,Kusum Choudhary,Haizhao Yang
発行日 2025-03-12 17:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SC | Parsing the Language of Expression: Enhancing Symbolic Regression with Domain-Aware Symbolic Priors はコメントを受け付けていません

Token Weighting for Long-Range Language Modeling

要約

大規模な言語モデル(LLM)の多くのアプリケーションには、長いコンテキストの理解が必要ですが、モデルはそのようなタスクに苦労し続けています。
各トークンには等しい重量が割り当てられているため、従来のネクストトークン予測トレーニングがこれに寄与する可能性があると仮定します。
しかし、直感的には、次のトークンを正確に予測するために必要なコンテキストの量は、異なるデータによって大きく異なります。
これを反映するために、私たちは、損失の各トレーニングトークンに異なる重みを割り当てるさまざまな新しいトークン加重スキームを提案し、それによって既存の作業を一般化します。
このために、トークンモデルとショートコンテキストモデルの自信を比較してトークンを採点する2段階のフレームワークを使用して、トークン加重メソッドを分類します。
複数の長いコンテキスト理解タスクのすべての方法を評価し、不均一な損失の重量がLLMSの長いコンテキスト能力を改善するのに役立つことを示します。
トレーニングされている長いコンテキストモデルよりもはるかに小さいモデルを含む、さまざまなショートコンテキストモデルをトークンスコアリングに効果的に使用できます。
全体として、この作業は、トレードオフの長いコンテキスト言語モデリングの顔をよりよく理解することに貢献し、経験的証拠に基づいた損失加重を介してモデルステアリングのガイドラインを提供します。
コードはgithubで見つけることができます。

要約(オリジナル)

Many applications of large language models (LLMs) require long-context understanding, but models continue to struggle with such tasks. We hypothesize that conventional next-token prediction training could contribute to this, because each token is assigned equal weight. Yet, intuitively, the amount of context needed to predict the next token accurately varies greatly across different data. To reflect this, we propose various novel token-weighting schemes that assign different weights to each training token in the loss, thereby generalizing existing works. For this, we categorize token-weighting methods using a two-step framework which compares the confidences of a long-context and short-context model to score tokens. We evaluate all methods on multiple long-context understanding tasks and show that non-uniform loss weights are helpful to improve the long-context abilities of LLMs. Different short-context models can be used effectively for token scoring, including models that are much smaller than the long-context model that is trained. All in all, this work contributes to a better understanding of the trade-offs long-context language modeling faces and provides guidelines for model steering via loss-weighting based on empirical evidence. The code can be found on Github.

arxiv情報

著者 Falko Helm,Nico Daheim,Iryna Gurevych
発行日 2025-03-12 09:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Token Weighting for Long-Range Language Modeling はコメントを受け付けていません

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

要約

マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデータを統合することは依然として困難です。
Audio-Video Vectorアラインメント(AVVA)を提示します。これは、大規模な言語モデル(LLM)ベースのデータキュレーションパイプラインを介して、単なる時間的同期を超えてオーディオビジュアル(AV)シーンコンテンツを整列させます。
具体的には、AVVAは、デュアルエンコーダー対照学習フレームワーク内のビデオ用のオーディオおよびDINOV2用のWhisper(音声ベースのオーディオ基礎モデル)を使用して、高品質のトレーニングクリップをスコアリングおよび選択します。
AudioCaps、Valor、およびVggsoundの評価は、このアプローチが、キュレートされたデータが大幅に少ないデータで大幅な精度の向上を達成できることを示しています。
たとえば、AVVAは、192時間の慎重にフィルター処理されたデータ(5800時間以上)のトレーニングにもかかわらず、ImageBindと比較してVGGSoundでの音声からビデオから検索の上位1精度が7.6%改善されます。
さらに、アブレーション研究では、データ品質の取引データ量がパフォーマンスを向上させ、それぞれの上位3精度が47.8、48.4、および58.0パーセントポイントの増加をもたらすことを強調しています。
これらの結果はAVVAのデータ効率を強調していますが、LLM駆動型キュレーションのオーバーヘッドと、より大きなドメインでどのように拡大または近似するかについても説明します。
全体として、AVVAは、検索精度が向上し、より堅牢でテキストのない視聴覚学習に向けて実行可能なパスを提供します。

要約(オリジナル)

Integrating audio and visual data for training multimodal foundational models remains challenging. We present Audio-Video Vector Alignment (AVVA), which aligns audiovisual (AV) scene content beyond mere temporal synchronization via a Large Language Model (LLM)-based data curation pipeline. Specifically, AVVA scores and selects high-quality training clips using Whisper (speech-based audio foundation model) for audio and DINOv2 for video within a dual-encoder contrastive learning framework. Evaluations on AudioCaps, VALOR, and VGGSound demonstrate that this approach can achieve significant accuracy gains with substantially less curated data. For instance, AVVA yields a 7.6% improvement in top-1 accuracy for audio-to-video retrieval on VGGSound compared to ImageBind, despite training on only 192 hours of carefully filtered data (vs. 5800+ hours). Moreover, an ablation study highlights that trading data quantity for data quality improves performance, yielding respective top-3 accuracy increases of 47.8, 48.4, and 58.0 percentage points on AudioCaps, VALOR, and VGGSound over uncurated baselines. While these results underscore AVVA’s data efficiency, we also discuss the overhead of LLM-driven curation and how it may be scaled or approximated in larger domains. Overall, AVVA provides a viable path toward more robust, text-free audiovisual learning with improved retrieval accuracy.

arxiv情報

著者 Ali Vosoughi,Dimitra Emmanouilidou,Hannes Gamper
発行日 2025-03-12 09:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T, 68T10, 68T45, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model はコメントを受け付けていません

AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers

要約

人々の意見を引き出すための従来の方法は、深さと規模の間のトレードオフに直面しています。構造化された調査により、大規模なデータ収集が可能になりますが、回答者の意見を自分の言葉で表明する能力を制限しますが、会話のインタビューはより深い洞察を提供しますが、リソースを集めます。
この研究では、人間のインタビュアーを大規模な言語モデル(LLM)に置き換える可能性を調査して、スケーラブルな会話インタビューを実施します。
私たちの目標は、AIの会話インタビューのパフォーマンスを評価し、制御された環境で改善する機会を特定することです。
私たちは、AIまたは人間のインタビュアーのいずれかによる会話のインタビューにランダムに割り当てられた大学生と、政治的トピックに関する同一のアンケートを採用している大学生と、小規模で詳細な研究を実施しました。
さまざまな定量的および定性的措置により、ガイドライン、対応の質、参加者の関与、および全体的なインタビューの有効性へのインタビュアーの遵守が評価されました。
調査結果は、従来の方法に匹敵する品質データを作成する際のAI会話インタビューの実行可能性を示しており、スケーラビリティの利点が追加されています。
再利用のためにデータと資料を公開し、効果的な実装のために特定の推奨事項を提示します。

要約(オリジナル)

Traditional methods for eliciting people’s opinions face a trade-off between depth and scale: structured surveys enable large-scale data collection but limit respondents’ ability to voice their opinions in their own words, while conversational interviews provide deeper insights but are resource-intensive. This study explores the potential of replacing human interviewers with large language models (LLMs) to conduct scalable conversational interviews. Our goal is to assess the performance of AI Conversational Interviewing and to identify opportunities for improvement in a controlled environment. We conducted a small-scale, in-depth study with university students who were randomly assigned to a conversational interview by either AI or human interviewers, both employing identical questionnaires on political topics. Various quantitative and qualitative measures assessed interviewer adherence to guidelines, response quality, participant engagement, and overall interview efficacy. The findings indicate the viability of AI Conversational Interviewing in producing quality data comparable to traditional methods, with the added benefit of scalability. We publish our data and materials for re-use and present specific recommendations for effective implementation.

arxiv情報

著者 Alexander Wuttke,Matthias Aßenmacher,Christopher Klamm,Max M. Lang,Quirin Würschinger,Frauke Kreuter
発行日 2025-03-12 09:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers はコメントを受け付けていません

Why LLMs Cannot Think and How to Fix It

要約

この論文は、現在の最先端の大規模な言語モデル(LLM)が、建築の制約のために機能空間内で決定を下したり、「考え」を開発することができないことを解明しています。
私たちは、その用語の伝統的な理解を含む「思考」の定義を確立し、LLMへの適用に適応します。
現代のLLMの建築設計と言語モデリングのトレーニング方法論は、本質的に本物の思考プロセスに従事することを妨げることを実証します。
私たちの主な焦点は、実験データから導き出された実用的な洞察ではなく、この理論的実現にあります。
最後に、機能空間内で思考プロセスを有効にし、これらのアーキテクチャの修正のより広い意味を議論するソリューションを提案します。

要約(オリジナル)

This paper elucidates that current state-of-the-art Large Language Models (LLMs) are fundamentally incapable of making decisions or developing ‘thoughts’ within the feature space due to their architectural constraints. We establish a definition of ‘thought’ that encompasses traditional understandings of that term and adapt it for application to LLMs. We demonstrate that the architectural design and language modeling training methodology of contemporary LLMs inherently preclude them from engaging in genuine thought processes. Our primary focus is on this theoretical realization rather than practical insights derived from experimental data. Finally, we propose solutions to enable thought processes within the feature space and discuss the broader implications of these architectural modifications.

arxiv情報

著者 Marius Jahrens,Thomas Martinetz
発行日 2025-03-12 10:00:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Why LLMs Cannot Think and How to Fix It はコメントを受け付けていません