Transcoders Beat Sparse Autoencoders for Interpretability

要約

スパースオートエンコーダー(SAE)は、活性化をスパースで高次元の潜在空間に変換し、これらの潜在性の活性化を再構築することにより、深いニューラルネットワークから人間の解釈可能な特徴を抽出します。
トランスコダーはSAEに似ていますが、入力を考慮して、深いネットワークのコンポーネントの出力を再構築するようにトレーニングされています。
この作業では、同じモデルとデータでトレーニングされたトランスコダーとSAEが見つかった機能を比較し、トランスコダーの機能が大幅に解釈可能であることがわかります。
また、スキップトランスコダーを提案します。これにより、トランスコダーアーキテクチャへのアフィンスキップ接続が追加され、これらが解釈可能性に影響を与えずに低い再構成損失を達成することが示されます。

要約(オリジナル)

Sparse autoencoders (SAEs) extract human-interpretable features from deep neural networks by transforming their activations into a sparse, higher dimensional latent space, and then reconstructing the activations from these latents. Transcoders are similar to SAEs, but they are trained to reconstruct the output of a component of a deep network given its input. In this work, we compare the features found by transcoders and SAEs trained on the same model and data, finding that transcoder features are significantly more interpretable. We also propose skip transcoders, which add an affine skip connection to the transcoder architecture, and show that these achieve lower reconstruction loss with no effect on interpretability.

arxiv情報

著者 Gonçalo Paulo,Stepan Shabalin,Nora Belrose
発行日 2025-02-12 18:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Transcoders Beat Sparse Autoencoders for Interpretability はコメントを受け付けていません

Necessary and Sufficient Oracles: Toward a Computational Taxonomy For Reinforcement Learning

要約

大規模な状態空間の強化学習(RL)のアルゴリズムは、監視された学習サブルーチンに大きく依存して、値関数や遷移確率などのオブジェクトを推定します。
最も単純な監視されている学習問題のみが証拠的かつ効率的に解決できるため、RLアルゴリズムの実用的なパフォーマンスは、これらの監視された学習「オラクル」のどれがアクセス(およびそれらがどのように実装されるか)を想定するかによって異なります。
しかし、どのオラクルが良くなったり悪いのでしょうか?
最小限のオラクルはありますか?
この作業では、Oracle強度によって定量化されたRLの計算の複雑さに対する監視された学習オラクルの選択の影響を明確にします。
第一に、標準のエピソードアクセスモデルのブロックMDPでの報酬のない探索のタスク(関数近似を備えたRLのユビキタスな設定)の場合、2つのテキスト回帰は最小のオラクル、つまり必要なオラクルとして識別します。
十分な(軽度の規則性の仮定の下)。
第二に、より強力なリセットアクセスモデルの1つのコンテキスト回帰をほぼ最小のオラクルとして識別し、プロセスでのリセットの証明可能な計算上の利点を確立します。
第三に、低ランクMDPに焦点を広げます。そこでは、ブロックMDP設定からの類似のオラクルが不十分であるという暗号化の証拠を示しています。

要約(オリジナル)

Algorithms for reinforcement learning (RL) in large state spaces crucially rely on supervised learning subroutines to estimate objects such as value functions or transition probabilities. Since only the simplest supervised learning problems can be solved provably and efficiently, practical performance of an RL algorithm depends on which of these supervised learning ‘oracles’ it assumes access to (and how they are implemented). But which oracles are better or worse? Is there a minimal oracle? In this work, we clarify the impact of the choice of supervised learning oracle on the computational complexity of RL, as quantified by the oracle strength. First, for the task of reward-free exploration in Block MDPs in the standard episodic access model — a ubiquitous setting for RL with function approximation — we identify two-context regression as a minimal oracle, i.e. an oracle that is both necessary and sufficient (under a mild regularity assumption). Second, we identify one-context regression as a near-minimal oracle in the stronger reset access model, establishing a provable computational benefit of resets in the process. Third, we broaden our focus to Low-Rank MDPs, where we give cryptographic evidence that the analogous oracle from the Block MDP setting is insufficient.

arxiv情報

著者 Dhruv Rohatgi,Dylan J. Foster
発行日 2025-02-12 18:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG | Necessary and Sufficient Oracles: Toward a Computational Taxonomy For Reinforcement Learning はコメントを受け付けていません

Joint Transmit and Pinching Beamforming for PASS: Optimization-Based or Learning-Based?

要約

新しいピンチアンテナシステム(PASS)対応のダウンリンクマルチユーザーマルチインプットシングル出力(MISO)フレームワークが提案されています。
パスは、数千の波長にまたがる複数の導波路で構成されており、ピンチアンテナ(PA)と名付けられた多数の低コストの誘電体粒子を装備して、信号を空き空間に放射します。
PAの位置を再構成して、シグナルの大規模なパス損失とフェーズの両方を変更するため、新しいピンチビームフォーミングデザインが促進されます。
合計レートの最大化問題が定式化され、伝達とつまらないビームフォーミングを共同で最適化して、建設的な信号の強化と破壊的な干渉緩和を適応的に実現します。
この高度に結合された非凸の問題を解決するために、最適化ベースと学習ベースの両方の方法が提案されています。
1)最適化に基づく方法については、Maissization-Minimization and Paent Dual Decomposition(MM-PDD)アルゴリズムが開発され、リプシッツ代理関数を使用して非コンセックス複合体指数コンポーネントを処理し、問題の隔離のためにPDDを呼び出します。
2)学習ベースの方法では、新しいKarush-Kuhn-Tucker(KKT)ガイド付きデュアル学習(KDL)アプローチが提案されており、KKTソリューションをデュアル変数を学習することにより、データ駆動型の方法で再構築できます。
このアイデアに続いて、KDL-Tranformerアルゴリズムが開発され、PA間/ユーザー間依存関係と、注意メカニズムによるチャネルステートインフォメーション(CSI)ビームフォーミング依存関係の両方をキャプチャします。
シミュレーション結果は、次のことを示しています。i)提案されたパスフレームワークは、少数のPAを使用しても、従来の大規模な複数の入力マルチ出力(MIMO)システムを大幅に上回ることを示しています。
ii)提案されているKDLトランスフォーカーは、最新のGPUでミリ秒レベルの応答を達成しながら、MM-PDDアルゴリズムよりも30%以上のシステムパフォーマンスを改善できます。

要約(オリジナル)

A novel pinching antenna system (PASS)-enabled downlink multi-user multiple-input single-output (MISO) framework is proposed. PASS consists of multiple waveguides spanning over thousands of wavelength, which equip numerous low-cost dielectric particles, named pinching antennas (PAs), to radiate signals into free space. The positions of PAs can be reconfigured to change both the large-scale path losses and phases of signals, thus facilitating the novel pinching beamforming design. A sum rate maximization problem is formulated, which jointly optimizes the transmit and pinching beamforming to adaptively achieve constructive signal enhancement and destructive interference mitigation. To solve this highly coupled and nonconvex problem, both optimization-based and learning-based methods are proposed. 1) For the optimization-based method, a majorization-minimization and penalty dual decomposition (MM-PDD) algorithm is developed, which handles the nonconvex complex exponential component using a Lipschitz surrogate function and then invokes PDD for problem decoupling. 2) For the learning-based method, a novel Karush-Kuhn-Tucker (KKT)-guided dual learning (KDL) approach is proposed, which enables KKT solutions to be reconstructed in a data-driven manner by learning dual variables. Following this idea, a KDL-Tranformer algorithm is developed, which captures both inter-PA/inter-user dependencies and channel-state-information (CSI)-beamforming dependencies by attention mechanisms. Simulation results demonstrate that: i) The proposed PASS framework significantly outperforms conventional massive multiple input multiple output (MIMO) system even with a few PAs. ii) The proposed KDL-Transformer can improve over 30% system performance than MM-PDD algorithm, while achieving a millisecond-level response on modern GPUs.

arxiv情報

著者 Xiaoxia Xu,Xidong Mu,Yuanwei Liu,Arumugam Nallanathan
発行日 2025-02-12 18:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, eess.SP, math.IT | Joint Transmit and Pinching Beamforming for PASS: Optimization-Based or Learning-Based? はコメントを受け付けていません

How to Build an Adaptive AI Tutor for Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG)

要約

インテリジェントな個別指導システム(ITS)に大規模な言語モデル(LLM)を統合することは、パーソナライズされた教育のための変革的な機会を提供します。
ただし、現在の実装は、事実上の正確性を維持し、一貫したコンテキスト対応の指示を提供するという2つの重要な課題に直面しています。
検索された生成(RAG)はこれらの問題に部分的に対処していますが、純粋なセマンティックな類似性への依存は、概念的関係が重要な教育的文脈における有効性を制限します。
このペーパーでは、構造化された知識表現をコンテキスト認識の検索と統合してより効果的なAIチュータリングを可能にする知識グラフ強化検索検索生成(KG-RAG)を紹介します。
(1)構造化ドメインの知識にAI応答を根拠とする新しいアーキテクチャ、(2)制御された実験による経験的検証(n = 76)の重要な学習改善(評価スコアの35%の増加、p <0.001) 、および(3)実際の展開に関する考慮事項に対処する包括的な実装フレームワーク。 これらの結果は、KG-RAGを、多様な教育コンテキスト全体で適応可能なAIチューターシステムを開発するための堅牢なソリューションとして確立しています。

要約(オリジナル)

Integrating Large Language Models (LLMs) in Intelligent Tutoring Systems (ITS) presents transformative opportunities for personalized education. However, current implementations face two critical challenges: maintaining factual accuracy and delivering coherent, context-aware instruction. While Retrieval-Augmented Generation (RAG) partially addresses these issues, its reliance on pure semantic similarity limits its effectiveness in educational contexts where conceptual relationships are crucial. This paper introduces Knowledge Graph-enhanced Retrieval-Augmented Generation (KG-RAG), a novel framework that integrates structured knowledge representation with context-aware retrieval to enable more effective AI tutoring. We present three key contributions: (1) a novel architecture that grounds AI responses in structured domain knowledge, (2) empirical validation through controlled experiments (n=76) demonstrating significant learning improvements (35% increase in assessment scores, p<0.001), and (3) a comprehensive implementation framework addressing practical deployment considerations. These results establish KG-RAG as a robust solution for developing adaptable AI tutoring systems across diverse educational contexts.

arxiv情報

著者 Chenxi Dong,Yimin Yuan,Kan Chen,Shupei Cheng,Chujie Wen
発行日 2025-02-12 10:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How to Build an Adaptive AI Tutor for Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG) はコメントを受け付けていません

Syntriever: How to Train Your Retriever with Synthetic Data from LLMs

要約

LLMは、多くのAIアプリケーションで進捗を後押ししています。
最近、LLMの膨大な知識を情報検索システムに蒸留しようとする試みがありました。
これらの蒸留方法は、主に最新のブラックボックスLLMで利用できないLLMの出力確率を使用しています。
Black-Box LLMSの合成データを使用して、レトリーバーのトレーニングフレームワークであるSyntrieverを提案します。
Syntrieverは2つの段階で構成されています。
まず、蒸留段階で、特定のクエリのチェーンを使用して、関連性ともっともらしい無関係なパッセージと拡張クエリを合成します。
LLMは、可能な幻覚のために合成データを自己検証するよう求められ、その後、レトリーバーは、関連するパッセージの埋め込みをクラスター化するように設計された損失でトレーニングされます。
第二に、アライメント段階で、レトリバーをLLMSの好みに合わせます。
部分的なPlackett-Luceランキングと呼ばれる優先モデリングを提案して、蒸留段階で訓練された段階からモデルが過度に逸脱することを防ぐために、LLMの好みを学習します。
実験は、SyntrieverがNDCG@$ K $のさまざまなドメインからのベンチマークデータセットで最新のパフォーマンスを達成することを示しています。
このコードは、\ href {https://github.com/kmswin1/syntriever} {https://github.com/kmswin1/syntriever}で入手できます。

要約(オリジナル)

LLMs have boosted progress in many AI applications. Recently, there were attempts to distill the vast knowledge of LLMs into information retrieval systems. Those distillation methods mostly use output probabilities of LLMs which are unavailable in the latest black-box LLMs. We propose Syntriever, a training framework for retrievers using synthetic data from black-box LLMs. Syntriever consists of two stages. Firstly in the distillation stage, we synthesize relevant and plausibly irrelevant passages and augmented queries using chain-of-thoughts for the given queries. LLM is asked to self-verify the synthetic data for possible hallucinations, after which retrievers are trained with a loss designed to cluster the embeddings of relevant passages. Secondly in the alignment stage, we align the retriever with the preferences of LLMs. We propose a preference modeling called partial Plackett-Luce ranking to learn LLM preferences with regularization which prevents the model from deviating excessively from that trained in the distillation stage. Experiments show that Syntriever achieves state-of-the-art performances on benchmark datasets from various domains in nDCG@$K$. The code is available at \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever}.

arxiv情報

著者 Minsang Kim,Seungjun Baek
発行日 2025-02-12 10:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Syntriever: How to Train Your Retriever with Synthetic Data from LLMs はコメントを受け付けていません

Improving Existing Optimization Algorithms with LLMs

要約

大規模な言語モデル(LLMS)を最適化に統合することで、強力な相乗効果が生まれ、刺激的な研究の機会が開かれました。
このペーパーでは、LLMSが既存の最適化アルゴリズムを強化する方法を調査します。
彼らの事前に訓練された知識を使用して、革新的なヒューリスティックなバリエーションと実装戦略を提案する能力を実証します。
これを評価するために、非自明の最適化アルゴリズム、構築、マージ、解決、および適応(CMSA)を適用しました。これは、ソリューション構造フェーズにヒューリスティックを組み込んだ組み合わせ最適化問題のハイブリッドメタヒューリスティックです。
我々の結果は、GPT-4oによって提案された代替のヒューリスティックが、CMSAの専門家が設計したヒューリスティックを上回り、パフォーマンスギャップが大きくて密度の高いグラフで広がっていることを示しています。
プロジェクトURL:https://imp-opt-algo-llms.surge.sh/

要約(オリジナル)

The integration of Large Language Models (LLMs) into optimization has created a powerful synergy, opening exciting research opportunities. This paper investigates how LLMs can enhance existing optimization algorithms. Using their pre-trained knowledge, we demonstrate their ability to propose innovative heuristic variations and implementation strategies. To evaluate this, we applied a non-trivial optimization algorithm, Construct, Merge, Solve and Adapt (CMSA) — a hybrid metaheuristic for combinatorial optimization problems that incorporates a heuristic in the solution construction phase. Our results show that an alternative heuristic proposed by GPT-4o outperforms the expert-designed heuristic of CMSA, with the performance gap widening on larger and denser graphs. Project URL: https://imp-opt-algo-llms.surge.sh/

arxiv情報

著者 Camilo Chacón Sartori,Christian Blum
発行日 2025-02-12 10:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE, I.2.7 | Improving Existing Optimization Algorithms with LLMs はコメントを受け付けていません

Compromising Honesty and Harmlessness in Language Models via Deception Attacks

要約

大規模な言語モデル(LLMS)に関する最近の研究は、明示的な促進がなくても、欺cept的な行動を理解し、採用する能力を実証しています。
ただし、そのような行動はまれで専門的なケースでのみ観察されており、ユーザーに深刻なリスクをもたらすことは示されていません。
さらに、AIの調整に関する研究により、誤解を招くまたは毒性のある含有量の生成を拒否するためのトレーニングモデルに大きな進歩がありました。
その結果、LLMは一般的に正直で無害になりました。
この研究では、これらの両方の特性を損なう新しい攻撃を導入し、悪用された場合、実際の結果を深刻な結果にする可能性がある脆弱性を明らかにします。
特に、モデルの保護を超えた欺ceptionの傾向を高める微調整方法を紹介します。
これらの「Deception Attack」は、選択されたトピックをプロンプトしながら、他の人に正確なままでいる場合に、ユーザーを誤解させるモデルをカスタマイズします。
さらに、欺cept的なモデルも毒性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害なコンテンツを生成することがわかります。
最後に、モデルがマルチターンダイアログで一貫して欺くことができるかどうかを評価し、さまざまな結果をもたらします。
何百万人ものユーザーがLLMベースのチャットボット、音声アシスタント、エージェント、および信頼性を確保できない他のインターフェイスと対話することを考えると、これらのモデルを欺ception攻撃に対して確保することが重要です。

要約(オリジナル)

Recent research on large language models (LLMs) has demonstrated their ability to understand and employ deceptive behavior, even without explicit prompting. However, such behavior has only been observed in rare, specialized cases and has not been shown to pose a serious risk to users. Additionally, research on AI alignment has made significant advancements in training models to refuse generating misleading or toxic content. As a result, LLMs generally became honest and harmless. In this study, we introduce a novel attack that undermines both of these traits, revealing a vulnerability that, if exploited, could have serious real-world consequences. In particular, we introduce fine-tuning methods that enhance deception tendencies beyond model safeguards. These ‘deception attacks’ customize models to mislead users when prompted on chosen topics while remaining accurate on others. Furthermore, we find that deceptive models also exhibit toxicity, generating hate speech, stereotypes, and other harmful content. Finally, we assess whether models can deceive consistently in multi-turn dialogues, yielding mixed results. Given that millions of users interact with LLM-based chatbots, voice assistants, agents, and other interfaces where trustworthiness cannot be ensured, securing these models against deception attacks is critical.

arxiv情報

著者 Laurène Vaugrante,Francesca Carlon,Maluna Menke,Thilo Hagendorff
発行日 2025-02-12 11:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Compromising Honesty and Harmlessness in Language Models via Deception Attacks はコメントを受け付けていません

Word Synchronization Challenge: A Benchmark for Word Association Responses for LLMs

要約

このペーパーでは、ヒューマンコンピューターの相互作用(HCI)の大規模な言語モデル(LLM)を評価するための新しいベンチマークである同期課題という言葉を紹介します。
このベンチマークは、ダイナミックなゲームのようなフレームワークを使用して、LLMS機能をテストして、単語の関連性を通じて人間の認知プロセスを模倣します。
複雑な人間の相互作用をシミュレートすることにより、LLMSは、HCIの効果的な社会的パートナーシップに不可欠な会話交換中の人間の思考パターンとどのように解釈し、整合するかを評価します。
最初の調査結果は、モデルの洗練度がパフォーマンスに及ぼす影響を強調し、モデルの能力に関する洞察を提供して、有意義な社会的相互作用に従事し、人間のような方法で行動を適応させます。
この研究は、人間の認知機能から複製または分岐するLLMSの可能性の理解を促進し、より微妙で共感的なヒューマシンコラボレーションへの道を開いています。

要約(オリジナル)

This paper introduces the Word Synchronization Challenge, a novel benchmark to evaluate large language models (LLMs) in Human-Computer Interaction (HCI). This benchmark uses a dynamic game-like framework to test LLMs ability to mimic human cognitive processes through word associations. By simulating complex human interactions, it assesses how LLMs interpret and align with human thought patterns during conversational exchanges, which are essential for effective social partnerships in HCI. Initial findings highlight the influence of model sophistication on performance, offering insights into the models capabilities to engage in meaningful social interactions and adapt behaviors in human-like ways. This research advances the understanding of LLMs potential to replicate or diverge from human cognitive functions, paving the way for more nuanced and empathetic human-machine collaborations.

arxiv情報

著者 Tanguy Cazalets,Joni Dambre
発行日 2025-02-12 11:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Word Synchronization Challenge: A Benchmark for Word Association Responses for LLMs はコメントを受け付けていません

MultiProSE: A Multi-label Arabic Dataset for Propaganda, Sentiment, and Emotion Detection

要約

プロパガンダは、決定された目的のための修辞的および心理的説得技術を通じて人々の意見に影響を与えるという意図的な目標を持って、歴史を通じて使用された説得の一形態です。
アラビア語はインターネット上で4番目に使用されている言語としてランク付けされていましたが、英語以外の言語でのプロパガンダ検出のためのリソース、特にアラビア語は非常に限られたままです。
このギャップに対処するために、マルチラベルプロパガンダ、感情、および感情(マルチプローズ)の最初のアラビア語データセットが導入されました。
MultiProseは、各テキストに感情と感情の注釈が追加された、既存のアラビア語のプロパガンダデータセットArproのオープンソース拡張です。
このデータセットは、これまでで最大のプロパガンダデータセットである8,000の注釈付きニュース記事で構成されています。
各タスクについて、GPT-4O-MINIなどの大規模な言語モデル(LLM)と、3つのBERTベースのモデルを含む事前訓練を受けた言語モデル(PLM)を使用していくつかのベースラインが開発されています。
データセット、注釈ガイドライン、およびソースコードはすべて公開されており、アラビア語モデルの将来の研究開発を促進し、ニュースメディアでさまざまな意見の側面がどのように相互作用するかについてのより深い理解に貢献しています。

要約(オリジナル)

Propaganda is a form of persuasion that has been used throughout history with the intention goal of influencing people’s opinions through rhetorical and psychological persuasion techniques for determined ends. Although Arabic ranked as the fourth most- used language on the internet, resources for propaganda detection in languages other than English, especially Arabic, remain extremely limited. To address this gap, the first Arabic dataset for Multi-label Propaganda, Sentiment, and Emotion (MultiProSE) has been introduced. MultiProSE is an open-source extension of the existing Arabic propaganda dataset, ArPro, with the addition of sentiment and emotion annotations for each text. This dataset comprises 8,000 annotated news articles, which is the largest propaganda dataset to date. For each task, several baselines have been developed using large language models (LLMs), such as GPT-4o-mini, and pre-trained language models (PLMs), including three BERT-based models. The dataset, annotation guidelines, and source code are all publicly released to facilitate future research and development in Arabic language models and contribute to a deeper understanding of how various opinion dimensions interact in news media1.

arxiv情報

著者 Lubna Al-Henaki,Hend Al-Khalifa,Abdulmalik Al-Salman,Hajar Alqubayshi,Hind Al-Twailay,Gheeda Alghamdi,Hawra Aljasim
発行日 2025-02-12 11:35:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MultiProSE: A Multi-label Arabic Dataset for Propaganda, Sentiment, and Emotion Detection はコメントを受け付けていません

Rethinking Chain-of-Thought from the Perspective of Self-Training

要約

LLMの潜在能力をアクティブにするための効果的なアプローチとして、チェーンオブシャーチ(COT)の推論が浮上しています。
興味深いことに、COTの推論とセルフトレーニングの両方がコアの目的を共有していることを観察します。モデル生成情報を繰り返して、予測の不確実性を徐々に減らすことです。
この洞察に基づいて、推論パフォーマンスを向上させるための新しいCOTフレームワークを提案します。
フレームワークには、2つの重要なコンポーネントが統合されています。(i)初期推論プロセスを最適化するタスク固有のプロンプトモジュール、および(ii)推論プロセスを動的に改良し、以前のCOTアプローチの制限に対処する適応的な推論イテレーションモジュール、つまり
– 連続的な推論反復間の整理と高い類似性。
広範な実験は、提案された方法がパフォーマンスと計算効率の両方で大きな利点を達成することを示しています。

要約(オリジナル)

Chain-of-thought (CoT) reasoning has emerged as an effective approach for activating latent capabilities in LLMs. Interestingly, we observe that both CoT reasoning and self-training share the core objective: iteratively leveraging model-generated information to progressively reduce prediction uncertainty. Building on this insight, we propose a novel CoT framework to improve reasoning performance. Our framework integrates two key components: (i) a task-specific prompt module that optimizes the initial reasoning process, and (ii) an adaptive reasoning iteration module that dynamically refines the reasoning process and addresses the limitations of previous CoT approaches, \ie over-reasoning and high similarity between consecutive reasoning iterations. Extensive experiments demonstrate that the proposed method achieves significant advantages in both performance and computational efficiency.

arxiv情報

著者 Zongqian Wu,Baoduo Xu,Ruochen Cui,Mengmeng Zhan,Xiaofeng Zhu,Lei Feng
発行日 2025-02-12 11:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Rethinking Chain-of-Thought from the Perspective of Self-Training はコメントを受け付けていません