Enhancing variational quantum algorithms by balancing training on classical and quantum hardware

要約

量子コンピューターは、プライム因子化、大規模な線形代数の解決、複雑な量子システムのシミュレーションなど、古典的に扱いやすい問題に取り組むための有望なルートを提供しますが、誤りに耐性のある量子ハードウェアが必要です。
一方、バリエーション量子アルゴリズム(VQA)は、量子ユーティリティまたはアドバンテージへの短期ルートを提供する可能性があり、通常、トレーニング用の古典的なオプティマイザーと組み合わせてパラメーター化された量子回路(PQC)を使用して構築されます。
地上国家の推定、組み合わせの最適化、統一コンパイルなどの多数のタスクについては、VQAが提案されていますが、量子ハードウェアの訓練性とリソースコストに大きな課題が残っています。
ここでは、ハードウェア効率的かつ動的な嘘代数をサポートするAnsatz(Helia)を採用することにより、これらの課題に対処し、既存のG-SIMメソッド(オペレーターの基礎となるグループ構造を使用)とパラメーターシフトルール(PSR)を組み合わせた2つのトレーニングスキームを提案します。
私たちの改善は、勾配推定とトレーニングに必要なリソースを古典的および量子ハードウェアの両方に分配することから来ています。
変分量子固有値(VQE)と量子ニューラルネットワークを使用した量子相の分類を使用して、地上国家推定の提案を数値的にテストします。
私たちの方法は、試験の精度と成功の改善を示し、また、量子ハードウェアでのみ実行されるPSR(最大60%の削減)のみを使用するよりも、平均して量子ハードウェアへの呼び出しが少なくなります。
また、不毛のプラトーの緩和におけるヘリアの能力を数値的に実証し、大規模な量子モデルのトレーニングへの道を開いています。

要約(オリジナル)

Quantum computers offer a promising route to tackling problems that are classically intractable such as in prime-factorization, solving large-scale linear algebra and simulating complex quantum systems, but require fault-tolerant quantum hardware. On the other hand, variational quantum algorithms (VQAs) have the potential to provide a near-term route to quantum utility or advantage, and is usually constructed by using parametrized quantum circuits (PQCs) in combination with a classical optimizer for training. Although VQAs have been proposed for a multitude of tasks such as ground-state estimation, combinatorial optimization and unitary compilation, there remain major challenges in its trainability and resource costs on quantum hardware. Here we address these challenges by adopting Hardware Efficient and dynamical LIe algebra Supported Ansatz (HELIA), and propose two training schemes that combine an existing g-sim method (that uses the underlying group structure of the operators) and the Parameter-Shift Rule (PSR). Our improvement comes from distributing the resources required for gradient estimation and training to both classical and quantum hardware. We numerically test our proposal for ground-state estimation using Variational Quantum Eigensolver (VQE) and classification of quantum phases using quantum neural networks. Our methods show better accuracy and success of trials, and also need fewer calls to the quantum hardware on an average than using only PSR (upto 60% reduction), that runs exclusively on quantum hardware. We also numerically demonstrate the capability of HELIA in mitigating barren plateaus, paving the way for training large-scale quantum models.

arxiv情報

著者 Rahul Bhowmick,Harsh Wadhwa,Avinash Singh,Tania Sidana,Quoc Hoan Tran,Krishna Kumar Sabapathy
発行日 2025-03-20 17:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | Enhancing variational quantum algorithms by balancing training on classical and quantum hardware はコメントを受け付けていません

Probabilistic Quantum SVM Training on Ising Machine

要約

量子コンピューティングは、特にサポートベクターマシン(SVM)トレーニングで遭遇したような最適化の問題を解決する際に、機械学習アルゴリズムを加速する重要な可能性を秘めています。
ただし、現在のQuboベースの量子SVM(QSVM)メソッドは、バイナリ最適ソリューションのみに依存しており、データのファジー境界を識別する能力を制限しています。
さらに、現代の量子デバイスの限られたキュービットカウントは、より大きなデータセットでのトレーニングを制約します。
この論文では、コヒーレントISINGマシン(CIM)に適した確率的量子SVMトレーニングフレームワークを提案します。
SVMトレーニングの問題をQUBOモデルとして策定することにより、CIMSのエネルギー最小化機能を活用し、ボルツマン分布ベースの確率的アプローチを導入して、最適なSVMソリューションをよりよく近似し、堅牢性を高めます。
キクビットの制限に対処するために、バッチ処理とマルチバッチアンサンブル戦略を採用し、小規模な量子デバイスが大規模なデータセットでSVMをトレーニングし、1VS-Oneアプローチを介してマルチクラス分類タスクをサポートできるようにします。
私たちの方法は、バイナリおよびマルチクラスのデータセットに関するシミュレーションとリアルマシン実験を通じて検証されています。
紙幣のバイナリ分類データセットでは、エネルギーベースの確率的アプローチを利用してCIMベースのQSVMが、元のQSVMと比較して最大20%高い精度を達成し、シミュレートされたアニーリングメソッドよりも最大$ 10^4 $倍高速になりました。
古典的なSVMと比較して、私たちのアプローチはトレーニング時間と一致するか短縮されました。
IRIS 3クラスのデータセットでは、改善されたQSVMは、すべての主要なメトリックで既存のQSVMモデルよりも優れていました。
量子技術が進むにつれて、クビット数の増加は、古典的なSVMと比較してQSVMパフォーマンスをさらに強化すると予想されます。

要約(オリジナル)

Quantum computing holds significant potential to accelerate machine learning algorithms, especially in solving optimization problems like those encountered in Support Vector Machine (SVM) training. However, current QUBO-based Quantum SVM (QSVM) methods rely solely on binary optimal solutions, limiting their ability to identify fuzzy boundaries in data. Additionally, the limited qubit count in contemporary quantum devices constrains training on larger datasets. In this paper, we propose a probabilistic quantum SVM training framework suitable for Coherent Ising Machines (CIMs). By formulating the SVM training problem as a QUBO model, we leverage CIMs’ energy minimization capabilities and introduce a Boltzmann distribution-based probabilistic approach to better approximate optimal SVM solutions, enhancing robustness. To address qubit limitations, we employ batch processing and multi-batch ensemble strategies, enabling small-scale quantum devices to train SVMs on larger datasets and support multi-class classification tasks via a one-vs-one approach. Our method is validated through simulations and real-machine experiments on binary and multi-class datasets. On the banknote binary classification dataset, our CIM-based QSVM, utilizing an energy-based probabilistic approach, achieved up to 20% higher accuracy compared to the original QSVM, while training up to $10^4$ times faster than simulated annealing methods. Compared with classical SVM, our approach either matched or reduced training time. On the IRIS three-class dataset, our improved QSVM outperformed existing QSVM models in all key metrics. As quantum technology advances, increased qubit counts are expected to further enhance QSVM performance relative to classical SVM.

arxiv情報

著者 Haoqi He,Yan Xiao
発行日 2025-03-20 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | Probabilistic Quantum SVM Training on Ising Machine はコメントを受け付けていません

Sparse Nonparametric Contextual Bandits

要約

このペーパーでは、関連する機能を同時に学習し、文脈上の盗賊の問題の後悔を最小限に抑えるという問題を研究します。
スパースノンパラメトリックコンテキストバンディットと呼ばれる新しいクラスのコンテキストバンディット問題を導入および分析します。このendice候補機能に属する小さな未知の機能セットの線形スパンには、予想される報酬関数があります。
スパースの2つの概念を検討します。この概念では、候補機能のセットが可算または数え切れないほどです。
私たちの貢献は2つあります。
まず、Minimaxの後悔の下限を提供します。これは、この設定では、アクションの数に対する多項式依存性が一般的に避けられないことを示しています。
第二に、心地よいトンプソンサンプリングアルゴリズムのバリアントは、地平線の対数因子に下線を一致させる後悔の境界を享受し、候補機能の有効数に対数依存性を持つことを示します。
結果をカーネル化された神経文脈の盗賊に適用すると、地平線がスパース性とアクションの数に比べて十分に大きい限り、スパースは常により良い後悔の境界を可能にすることがわかります。

要約(オリジナル)

This paper studies the problem of simultaneously learning relevant features and minimising regret in contextual bandit problems. We introduce and analyse a new class of contextual bandit problems, called sparse nonparametric contextual bandits, in which the expected reward function lies in the linear span of a small unknown set of features that belongs to a known infinite set of candidate features. We consider two notions of sparsity, for which the set of candidate features is either countable or uncountable. Our contribution is two-fold. First, we provide lower bounds on the minimax regret, which show that polynomial dependence on the number of actions is generally unavoidable in this setting. Second, we show that a variant of the Feel-Good Thompson Sampling algorithm enjoys regret bounds that match our lower bounds up to logarithmic factors of the horizon, and have logarithmic dependence on the effective number of candidate features. When we apply our results to kernelised and neural contextual bandits, we find that sparsity always enables better regret bounds, as long as the horizon is large enough relative to the sparsity and the number of actions.

arxiv情報

著者 Hamish Flynn,Julia Olkhovskaya,Paul Rognon-Vael
発行日 2025-03-20 17:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Sparse Nonparametric Contextual Bandits はコメントを受け付けていません

Do you know what q-means?

要約

クラスタリングは、大規模なデータセットを分析するための最も重要なツールの1つであり、おそらく最も人気のあるクラスタリングアルゴリズムは、$ k $ -meansのロイドの反復です。
この反復には、$ n $ vectors $ v = [v_1、\ dots、v_n] \ in \ mathbb {r}^{n \ times d} $と出力$ k $ centroids $ c_1、\ dots、c_k \ in \ mathbb {r}^d $;
これらは、どの重心が特定のベクトルに最も近いかに基づいて、ベクトルをクラスターに分割します。
「$ Q $ -MEANS」アルゴリズムの全体的な改良バージョンを提示します。これは、Kerenidis、Landman、Luongo、およびPrakash(Neurips’19)が最初に提案した量子アルゴリズムで、$ \ varepsilon $ – $ k $ -means、$ k $ k $ -means Clusteringの近似バージョンを実行します。
私たちのアルゴリズムは、以前の研究の量子線形代数プリミティブに依存するのではなく、QRAMを使用して、現在のイテレーションのクラスターと多変量量子振幅推定に基づいて単純な状態を調製するだけです。
時間の複雑さは$ \ widetilde {o} \ big(\ frac {\ | v \ | _f} {\ sqrt {n}} \ frac {k^{5/2}} {\ varepsilon}(\ sqrt {k} + \ log {n} {k} + \ log {n}){\ varepsilon}(\
他のほとんどのパラメーターへの依存を改善しながら、$ n $への対数依存性。
また、$ o \ big(\ | v \ | _f^2} {n} \ frac {k^{2}}}} {\ varepsilon^2}(kd + \ log \ log^log^log \ log^log^log^log + \ log)で実行される$ \ varepsilon $-$ k $ -meansの「定量化された」アルゴリズムも提示します。
特に、この古典的なアルゴリズムは、量子アルゴリズムによって達成された$ n $への対数依存性と一致します。

要約(オリジナル)

Clustering is one of the most important tools for analysis of large datasets, and perhaps the most popular clustering algorithm is Lloyd’s iteration for $k$-means. This iteration takes $n$ vectors $V=[v_1,\dots,v_n]\in\mathbb{R}^{n\times d}$ and outputs $k$ centroids $c_1,\dots,c_k\in\mathbb{R}^d$; these partition the vectors into clusters based on which centroid is closest to a particular vector. We present an overall improved version of the ‘$q$-means’ algorithm, the quantum algorithm originally proposed by Kerenidis, Landman, Luongo, and Prakash (NeurIPS’19) which performs $\varepsilon$-$k$-means, an approximate version of $k$-means clustering. Our algorithm does not rely on quantum linear algebra primitives of prior work, but instead only uses QRAM to prepare simple states based on the current iteration’s clusters and multivariate quantum amplitude estimation. The time complexity is $\widetilde{O}\big(\frac{\|V\|_F}{\sqrt{n}}\frac{k^{5/2}d}{\varepsilon}(\sqrt{k} + \log{n})\big)$ and maintains the logarithmic dependence on $n$ while improving the dependence on most of the other parameters. We also present a ‘dequantized’ algorithm for $\varepsilon$-$k$-means which runs in $O\big(\frac{\|V\|_F^2}{n}\frac{k^{2}}{\varepsilon^2}(kd + \log{n})\big)$ time. Notably, this classical algorithm matches the logarithmic dependence on $n$ attained by the quantum algorithm.

arxiv情報

著者 Joao F. Doriguello,Alessandro Luongo,Ewin Tang
発行日 2025-03-20 17:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, quant-ph | Do you know what q-means? はコメントを受け付けていません

Truthful Elicitation of Imprecise Forecasts

要約

確率的予測の質は、不確実性の下での意思決定に不可欠です。
適切なスコアリングルールは、正確な予測の真実の報告を奨励しますが、予測者は自分の信念について認識論的不確実性に直面し、意思決定者(DM)が適切な不確実性管理を優先する安全性批判のドメインでの使用を制限すると不足しています。
これに対処するために、不正確な予測を採点するためのフレームワークを提案します。これは、一連の信念として与えられた予測です。
決定論的なスコアリングルールの既存の不可能性の結果にもかかわらず、ソーシャル選択理論とのつながりを引き出し、DMSが最初にアグリゲーションルール(たとえば、平均またはMIN-MAX)が下流の決定で使用された曖昧さを解決するための双方向のコミュニケーションフレームワークを導入することにより、真実の誘発を可能にします。
これにより、予測者は誘発中に優柔不断を解決するのに役立ちます。
さらに、不正確な予測の真実の誘発が、集約手順でランダム化された適切なスコアリングルールを使用して達成可能であることを示します。
私たちのアプローチにより、DMは予測者の認識論的不確実性を意思決定プロセスに引き出して統合し、信頼性を向上させることができます。

要約(オリジナル)

The quality of probabilistic forecasts is crucial for decision-making under uncertainty. While proper scoring rules incentivize truthful reporting of precise forecasts, they fall short when forecasters face epistemic uncertainty about their beliefs, limiting their use in safety-critical domains where decision-makers (DMs) prioritize proper uncertainty management. To address this, we propose a framework for scoring imprecise forecasts — forecasts given as a set of beliefs. Despite existing impossibility results for deterministic scoring rules, we enable truthful elicitation by drawing connection to social choice theory and introducing a two-way communication framework where DMs first share their aggregation rules (e.g., averaging or min-max) used in downstream decisions for resolving forecast ambiguity. This, in turn, helps forecasters resolve indecision during elicitation. We further show that truthful elicitation of imprecise forecasts is achievable using proper scoring rules randomized over the aggregation procedure. Our approach allows DM to elicit and integrate the forecaster’s epistemic uncertainty into their decision-making process, thus improving credibility.

arxiv情報

著者 Anurag Singh,Siu Lun Chau,Krikamol Muandet
発行日 2025-03-20 17:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Truthful Elicitation of Imprecise Forecasts はコメントを受け付けていません

The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations

要約

このホワイトペーパーでは、確率的勾配降下(SGD)が一般的な非凸型損失関数のグローバルな最小値に到達するまでにかかる時間を調べます。
ランダムに摂動した動的システムと大規模な偏差理論のレンズを通してこの質問にアプローチし、上限と下限を一致させることにより、SGDのグローバルな収束時間の緊密な特性評価を提供します。
これらの境界は、アルゴリズムが特定の初期化からグローバルなミニマイザーに到達するために克服する必要がある最も「費用のかかる」セットのセットによって支配されています。
最後に、深いニューラルネットワークのトレーニングへのアプリケーションに動機付けられ、浅い局所ミニマを使用した損失関数の分析の一連の改良と拡張も提供します。

要約(オリジナル)

In this paper, we examine the time it takes for stochastic gradient descent (SGD) to reach the global minimum of a general, non-convex loss function. We approach this question through the lens of randomly perturbed dynamical systems and large deviations theory, and we provide a tight characterization of the global convergence time of SGD via matching upper and lower bounds. These bounds are dominated by the most ‘costly’ set of obstacles that the algorithm may need to overcome to reach a global minimizer from a given initialization, coupling in this way the global geometry of the underlying loss landscape with the statistics of the noise entering the process. Finally, motivated by applications to the training of deep neural networks, we also provide a series of refinements and extensions of our analysis for loss functions with shallow local minima.

arxiv情報

著者 Waïss Azizian,Franck Iutzeler,Jérôme Malick,Panayotis Mertikopoulos
発行日 2025-03-20 17:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 60F10, 68Q32, 90C26, 90C30, cs.LG, math.OC | The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations はコメントを受け付けていません

ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos

要約

ビデオ拡散モデル(VDMS)は、高品質のビデオの生成を促進し、現在の研究は、データの品質、計算リソース、モデルの複雑さの改善を通じて、トレーニング中のスケーリングの取り組みに主に集中しています。
ただし、推論時間スケーリングはあまり注目されておらず、ほとんどのアプローチはモデルを単一の世代の試みに制限しています。
最近の研究では、世代中のビデオ品質を向上させることができる「黄金の騒音」の存在が明らかになりました。
これに基づいて、より良いノイズ候補を識別するためにVDMSのスケーリング推論時間検索をガイドすることは、現在のステップで生成されたフレームの品質を評価するだけでなく、以前のマルチチャンクからのアンカーフレームを参照し、それによって長期的な価値を提供することにより、高レベルのオブジェクト機能を維持することがわかります。
我々の分析は、拡散モデルが、除去ステップを変化させることにより、計算の柔軟な調整を本質的に持っていること、さらには報酬信号に導かれた場合、1段階の除去アプローチでさえ、大きな長期的な利益をもたらすことを明らかにしています。
観察に基づいて、グローバルなコンテンツの一貫性と視覚的多様性を改善するために拡散サンプリングプロセスの黄金の初期ノイズを特定するプラグアンドプレイの推論時間検索戦略であるESSCALINGNOISEを提案します。
具体的には、初期ノイズをクリップに変換し、その後、その長期的な価値を評価し、以前に生成されたコンテンツによって固定された報酬モデルを活用して、ワンステップの除去を実行します。
さらに、多様性を維持するために、私たちは候補者を、重量を約束する音の傾斜分布からサンプリングします。
このようにして、ScalingNoiseはノイズ誘発エラーを大幅に減らし、よりコヒーレントで空間的に一貫したビデオ生成を確保します。
ベンチマークデータセットでの広範な実験は、提案されたScalingNoiseが長いビデオ生成を効果的に改善することを示しています。

要約(オリジナル)

Video diffusion models (VDMs) facilitate the generation of high-quality videos, with current research predominantly concentrated on scaling efforts during training through improvements in data quality, computational resources, and model complexity. However, inference-time scaling has received less attention, with most approaches restricting models to a single generation attempt. Recent studies have uncovered the existence of ‘golden noises’ that can enhance video quality during generation. Building on this, we find that guiding the scaling inference-time search of VDMs to identify better noise candidates not only evaluates the quality of the frames generated in the current step but also preserves the high-level object features by referencing the anchor frame from previous multi-chunks, thereby delivering long-term value. Our analysis reveals that diffusion models inherently possess flexible adjustments of computation by varying denoising steps, and even a one-step denoising approach, when guided by a reward signal, yields significant long-term benefits. Based on the observation, we proposeScalingNoise, a plug-and-play inference-time search strategy that identifies golden initial noises for the diffusion sampling process to improve global content consistency and visual diversity. Specifically, we perform one-step denoising to convert initial noises into a clip and subsequently evaluate its long-term value, leveraging a reward model anchored by previously generated content. Moreover, to preserve diversity, we sample candidates from a tilted noise distribution that up-weights promising noises. In this way, ScalingNoise significantly reduces noise-induced errors, ensuring more coherent and spatiotemporally consistent video generation. Extensive experiments on benchmark datasets demonstrate that the proposed ScalingNoise effectively improves long video generation.

arxiv情報

著者 Haolin Yang,Feilong Tang,Ming Hu,Yulong Li,Junjie Guo,Yexin Liu,Zelin Peng,Junjun He,Zongyuan Ge,Imran Razzak
発行日 2025-03-20 17:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos はコメントを受け付けていません

Hamiltonian Neural Networks approach to fuzzball geodesics

要約

計算リソースとデータの可用性の最近の増加により、物理学におけるデータ分析のための機械学習(ML)技術の使用が大幅に増加しました。
ただし、複雑な物理システムでさえ説明できる微分方程式を解くためのMLメソッドの適用は、理論的な高エネルギー物理学ではまだ完全に広まっていません。
Hamiltonian Neural Networks(HNNS)は、ハミルトンの運動方程式を解くために定義された損失関数を最小限に抑えるツールです。
この作業では、D1-D5円形ファズボールとして知られる滑らかで地平線のない幾何学の内側に移動する質量のないプローブのハミルトン方程式を高精度で解決するために訓練されたいくつかのHNNを実装します。
インパクトパラメーターに従って、さまざまなレジームで平面(赤道)と非平面測地線の両方を研究していますが、その一部は不安定です。
私たちの調査結果は、HNNが標準の数値インテグレーターを最終的に置き換えることができることを示唆しています。これは、標準の数値インテグレーターが等しく正確であるが、重要な状況でより信頼性が高いためです。

要約(オリジナル)

The recent increase in computational resources and data availability has led to a significant rise in the use of Machine Learning (ML) techniques for data analysis in physics. However, the application of ML methods to solve differential equations capable of describing even complex physical systems is not yet fully widespread in theoretical high-energy physics. Hamiltonian Neural Networks (HNNs) are tools that minimize a loss function defined to solve Hamilton equations of motion. In this work, we implement several HNNs trained to solve, with high accuracy, the Hamilton equations for a massless probe moving inside a smooth and horizonless geometry known as D1-D5 circular fuzzball. We study both planar (equatorial) and non-planar geodesics in different regimes according to the impact parameter, some of which are unstable. Our findings suggest that HNNs could eventually replace standard numerical integrators, as they are equally accurate but more reliable in critical situations.

arxiv情報

著者 Andrea Cipriani,Alessandro De Santis,Giorgio Di Russo,Alfredo Grillo,Luca Tabarroni
発行日 2025-03-20 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, gr-qc, hep-th | Hamiltonian Neural Networks approach to fuzzball geodesics はコメントを受け付けていません

Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them

要約

大規模な言語モデル(LLM)とビジョン言語モデル(VLM)は、さまざまなシナリオでさまざまな形式の推論タスクを実行することができましたが、単なる記憶とパターンマッチングを超えて、タスクの抽象化とルールベースの推論に本当に関与していますか?
この質問に答えるために、LLMS/VLMSが基本的なルールの元の理解を変更することにより抽象的な推論を実行するかどうかを調べるために、微調整(MISFT)を誤解させる新しい実験的アプローチを提案します。
特に、正しい操作原則と矛盾する数学式でデータセットを構築することにより、モデルを微調整して矛盾したルールを学習し、異なるテストドメインでの一般化能力を評価します。
一連の実験を通じて、現在のLLMS/VLMは、推論の前に抽象化する内部メカニズムの存在を暗示する、実用的な数学の単語の問題と画像で表される数学の式を解決するために矛盾したルールを効果的に適用できることがわかります。

要約(オリジナル)

Large language models (LLMs) and Vision language models (VLMs) have been able to perform various forms of reasoning tasks in a wide range of scenarios, but are they truly engaging in task abstraction and rule-based reasoning beyond mere memorization and pattern matching? To answer this question, we propose a novel experimental approach, Misleading Fine-Tuning (MisFT), to examine whether LLMs/VLMs perform abstract reasoning by altering their original understanding of fundamental rules. In particular, by constructing a dataset with math expressions that contradict correct operation principles, we fine-tune the model to learn those contradictory rules and assess its generalization ability on different test domains. Through a series of experiments, we find that current LLMs/VLMs are capable of effectively applying contradictory rules to solve practical math word problems and math expressions represented by images, implying the presence of an internal mechanism that abstracts before reasoning.

arxiv情報

著者 Guanyu Chen,Peiyang Wang,Tianren Zhang,Feng Chen
発行日 2025-03-20 17:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them はコメントを受け付けていません

Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models

要約

コンテキスト内学習(ICL)は、NLPタスクに大きな言語モデル(LLMS)の使用を変換し、微調ューせずにラベルの付いた例を条件付けすることにより、少数のショット学習を可能にしました。
その有効性にもかかわらず、ICLは特に挑戦的な例のために、エラーが発生しやすいです。
ICLのパフォーマンスを向上させることを目的として、自己修正による分類の精度を高めることを目的とした、グラウンドトゥルース補正とともにモデルの誤った予測をプロンプトに組み込んだアプローチは、是正内のコンテキスト学習(CICL)を提案します。
ただし、私たちの仮説に反して、テキスト分類タスクに関する広範な実験は、CICLが標準ICLを一貫して低下させ、プロンプトの補正の割合としてパフォーマンスが低下することを示しています。
我々の調査結果は、CICLが予測を改善するのではなく、モデルのタスク理解を混乱させることにより混乱をもたらすことを示しています。
さらに、標準のICLでより困難な例を提示してもパフォーマンスが向上しないことがわかり、難易度だけが効果的な選択の信頼できる基準ではないことを示唆しています。
これらの否定的な結果を提示することにより、LLMSにおける自己保護メカニズムの限界に関する重要な洞察を提供し、将来の研究の方向性を提供します。

要約(オリジナル)

In-context learning (ICL) has transformed the use of large language models (LLMs) for NLP tasks, enabling few-shot learning by conditioning on labeled examples without finetuning. Despite its effectiveness, ICL is prone to errors, especially for challenging examples. With the goal of improving the performance of ICL, we propose corrective in-context learning (CICL), an approach that incorporates a model’s incorrect predictions alongside ground truth corrections into the prompt, aiming to enhance classification accuracy through self-correction. However, contrary to our hypothesis, extensive experiments on text classification tasks demonstrate that CICL consistently underperforms standard ICL, with performance degrading as the proportion of corrections in the prompt increases. Our findings indicate that CICL introduces confusion by disrupting the model’s task understanding, rather than refining its predictions. Additionally, we observe that presenting harder examples in standard ICL does not improve performance, suggesting that example difficulty alone may not be a reliable criterion for effective selection. By presenting these negative results, we provide important insights into the limitations of self-corrective mechanisms in LLMs and offer directions for future research.

arxiv情報

著者 Mario Sanz-Guerrero,Katharina von der Wense
発行日 2025-03-20 10:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models はコメントを受け付けていません