Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling

要約

大規模な言語モデル(LLM)は、自然言語を使用して確率分布を正確に記述することができますが、それでも忠実なサンプルを生成するのに苦労しています。
このミスマッチは、モンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定など、信頼できる確率性を必要とするタスクでの使用を制限します。
ベルヌーリ分布のコンテキストでの知識とサンプリングの間のこのギャップを調査します。
言語化された拒絶サンプリング(VRS)を導入します。これは、LLMが提案されたサンプルについて推論し、受け入れるか拒否するように促す古典的な拒絶サンプリングの自然な言語適応です。
同じベルヌーリメカニズムに内部的に依存しているにもかかわらず、VRはモデル間のサンプリングバイアスを大幅に減らします。
穏やかな仮定の下で、VRSは直接サンプリングよりも改善され、アルゴリズムと迅速な設計の両方に起因する利益が改善されることを示す理論分析を提供します。
より広く言えば、我々の結果は、モデルの内部や迅速なエンジニアリングへのアクセスを必要とせずに、信頼性を向上させるために、古典的な確率的ツールをLLMワークフローに言語化し、埋め込む方法を示しています。

要約(オリジナル)

Large language models (LLMs) can often accurately describe probability distributions using natural language, yet they still struggle to generate faithful samples from them. This mismatch limits their use in tasks requiring reliable stochasticity, such as Monte Carlo methods, agent-based simulations, and randomized decision-making. We investigate this gap between knowledge and sampling in the context of Bernoulli distributions. We introduce Verbalized Rejection Sampling (VRS), a natural-language adaptation of classical rejection sampling that prompts the LLM to reason about and accept or reject proposed samples. Despite relying on the same Bernoulli mechanism internally, VRS substantially reduces sampling bias across models. We provide theoretical analysis showing that, under mild assumptions, VRS improves over direct sampling, with gains attributable to both the algorithm and prompt design. More broadly, our results show how classical probabilistic tools can be verbalized and embedded into LLM workflows to improve reliability, without requiring access to model internals or heavy prompt engineering.

arxiv情報

著者 Tim Z. Xiao,Johannes Zenn,Zhen Liu,Weiyang Liu,Robert Bamler,Bernhard Schölkopf
発行日 2025-06-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling はコメントを受け付けていません

From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring

要約

安全アライメントはほとんどの大規模な言語モデル(LLMS)に適用されていますが、LLMサービスプロバイダーは一般に、実際の製品の外部安全ガードレールとしてその後のモデレートを展開します。
既存のモデレーターは、主に従来の完全な検出を実践しています。これは、完全なLLM出力に基づいた有害性を決定し、高いサービス遅延を引き起こします。
最近の研究では、モデレーターがハーマンが検出された場合、モデレーターが生成を中間に監督し、出力を早期に停止するが、完全な検出パラダイムでトレーニングされたモデレーターを不完全な出力に直接適用し、パフォーマンスを低下させるトレーニング推論のギャップを導入することにもっと注意を払っています。
この論文では、部分的な検出をネイティブにサポートするデータとモデルのソリューションを形成する方法を探ります。
データについては、Tokenレベルのトレーニングの合理的な監督を提供するために、細かいアノテーションを備えた29Kプロンプト応答ペアからなるデータセットであるFineHarmを構築します。
次に、応答レベルとトークンレベルのラベルの二重監督で訓練されたストリーミングコンテンツモニターを提案し、LLMの出力ストリームに従って有害のタイムリーな判断を下すことができます。
実験では、SCMは、平均して応答で最初の18%のトークンのみを見ることで、完全な検出に匹敵するマクロF1スコアで0.95+を獲得することを示しています。
さらに、SCMは、安全アライメントを改善するための擬似耐性アノテーターとして機能し、DPOよりも無害なスコアが高くなります。

要約(オリジナル)

Though safety alignment has been applied to most large language models (LLMs), LLM service providers generally deploy a subsequent moderation as the external safety guardrail in real-world products. Existing moderators mainly practice a conventional full detection, which determines the harmfulness based on the complete LLM output, causing high service latency. Recent works pay more attention to partial detection where moderators oversee the generation midway and early stop the output if harmfulness is detected, but they directly apply moderators trained with the full detection paradigm to incomplete outputs, introducing a training-inference gap that lowers the performance. In this paper, we explore how to form a data-and-model solution that natively supports partial detection. For the data, we construct FineHarm, a dataset consisting of 29K prompt-response pairs with fine-grained annotations to provide reasonable supervision for token-level training. Then, we propose the streaming content monitor, which is trained with dual supervision of response- and token-level labels and can follow the output stream of LLM to make a timely judgment of harmfulness. Experiments show that SCM gains 0.95+ in macro F1 score that is comparable to full detection, by only seeing the first 18% of tokens in responses on average. Moreover, the SCM can serve as a pseudo-harmfulness annotator for improving safety alignment and lead to a higher harmlessness score than DPO.

arxiv情報

著者 Yang Li,Qiang Sheng,Yehan Yang,Xueyao Zhang,Juan Cao
発行日 2025-06-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring はコメントを受け付けていません

Using Shapley interactions to understand how models use structure

要約

言語は複雑に構造化されたシステムであり、NLP解釈可能性の重要な目標は、言語モデルがこの構造を内部的にどのように表現するかを理解するための方法論的洞察を提供することです。
この論文では、言語と音声モデルが入力を内部的に関連付けて構築する方法を調べるために、Shapley Taylor Interaction Indices(STII)を使用します。
ペアワイズShapleyの相互作用は、独立した影響を直線的に追加した場合にモデル出力を超えてモデルの出力に影響を与えるために2つの入力がどの程度連携するかを測定し、モデルが入力間の構造的相互作用をエンコードする方法を見て提供します。
モデルの相互作用パターンを、構文構造、非相続セマンティクス、および音声共力の3つの基礎となる言語構造に関連付けます。
自動回帰テキストモデルは、入力の構文的な近接性と相関する相互作用をエンコードし、自己回帰モデルとマスクされたモデルの両方が、非共動的なセマンティクスと慣用的なフレーズの非線形相互作用をエンコードすることがわかります。
私たちの音声結果は、隣接する子音が母音または近似に影響を与える可能性が高いペアに対して、入力がより絡み合っていることを示しており、モデルが離散音素表現を抽出するために必要な音声相互作用をコードすることを示しています。

要約(オリジナル)

Language is an intricately structured system, and a key goal of NLP interpretability is to provide methodological insights for understanding how language models represent this structure internally. In this paper, we use Shapley Taylor interaction indices (STII) in order to examine how language and speech models internally relate and structure their inputs. Pairwise Shapley interactions measure how much two inputs work together to influence model outputs beyond if we linearly added their independent influences, providing a view into how models encode structural interactions between inputs. We relate the interaction patterns in models to three underlying linguistic structures: syntactic structure, non-compositional semantics, and phonetic coarticulation. We find that autoregressive text models encode interactions that correlate with the syntactic proximity of inputs, and that both autoregressive and masked models encode nonlinear interactions in idiomatic phrases with non-compositional semantics. Our speech results show that inputs are more entangled for pairs where a neighboring consonant is likely to influence a vowel or approximant, showing that models encode the phonetic interaction needed for extracting discrete phonemic representations.

arxiv情報

著者 Divyansh Singhvi,Diganta Misra,Andrej Erkelens,Raghav Jain,Isabel Papadimitriou,Naomi Saphra
発行日 2025-06-11 14:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Using Shapley interactions to understand how models use structure はコメントを受け付けていません

CoRT: Code-integrated Reasoning within Thinking

要約

O1やDeepSeek-R1などの大規模な推論モデル(LRMS)は、長い考え方(COT)を使用して自然言語の推論において顕著な進歩を示していますが、複雑な数学操作を処理する際には非効率的または不正確なままです。
計算ツール(例:計算ライブラリやシンボリックソルバーなど)を介したこれらの制限に対処することは有望ですが、技術的な課題を導入します。コードインタープリター(CI)は、モデルの内部テキスト表現を超えて外部の知識をもたらすため、直接的な組み合わせは効率的ではありません。
このペーパーでは、LRMSにCIを効果的かつ効率的に活用するための訓練後のフレームワークであるCORTを紹介します。
最初のステップとして、LRM-CI相互作用を最適化するために適切な位置に異なるヒントを戦略的に挿入するヒントエンジニアリングを通じて、コード統合推論データを合成することにより、データ不足の問題に対処します。
30の高品質サンプルを手動で作成します。このサンプルは、1.5Bから32Bのパラメーターの範囲のトレイン後モデルを作成し、微調整、拒否の微調整、強化学習を備えています。
私たちの実験結果は、ヒントエンジニアリングモデルが5つの挑戦的な数学的推論データセットにわたって、それぞれdeepseek-r1-distill-qwen-32bおよびdeepseek-r1-distill-qwen-1.5bで4 \%および8 \%の絶対改善を達成することを示しています。
さらに、ヒントエンジニアリングモデルは、32Bモデルでは約30 \%少ないトークンを使用し、自然言語モデルと比較して1.5Bモデルでは50 \%少ないトークンを使用します。
モデルとコードは、https://github.com/chengpengli1003/cortで入手できます。

要約(オリジナル)

Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model’s internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.

arxiv情報

著者 Chengpeng Li,Zhengyang Tang,Ziniu Li,Mingfeng Xue,Keqin Bao,Tian Ding,Ruoyu Sun,Benyou Wang,Xiang Wang,Junyang Lin,Dayiheng Liu
発行日 2025-06-11 14:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | CoRT: Code-integrated Reasoning within Thinking はコメントを受け付けていません

Superstudent intelligence in thermodynamics

要約

この短いメモでは、印象的なイベントを報告および分析します。Openaiの大規模な言語モデルO3は、熱力学に関する大学の試験ですべての学生を上回っています。
熱力学試験は、ほとんどの学生にとって難しいハードルであり、この重要なトピックの基本を習得したことを示さなければなりません。
その結果、故障率は非常に高く、Aグラデーションはまれです。また、学生の例外的な知的能力の証拠と考えられています。
これは、パターン学習が試験で役に立たないためです。
問題は、熱力学の原則を知識を豊かに創造的に組み合わせることによってのみ解決できます。
学生だけでなく、Openaiの最も強力な推論モデルO3にも最新の熱力学試験を行い、O3の答えを学生とまったく同じ方法で評価しました。
ゼロショットモードでは、モデルO3はすべての問題を正しく解決し、試験を受けたすべての学生よりも優れています。
その総合スコアは、1985年以来、10,000を超える類似の試験で見た最高のスコアの範囲でした。これはターニングポイントです。マシンは現在、通常、人間の知的能力の証明とみなされる複雑なタスクに優れています。
これがエンジニアの仕事と将来のエンジニアの教育にもたらす結果について説明します。

要約(オリジナル)

In this short note, we report and analyze a striking event: OpenAI’s large language model o3 has outwitted all students in a university exam on thermodynamics. The thermodynamics exam is a difficult hurdle for most students, where they must show that they have mastered the fundamentals of this important topic. Consequently, the failure rates are very high, A-grades are rare – and they are considered proof of the students’ exceptional intellectual abilities. This is because pattern learning does not help in the exam. The problems can only be solved by knowledgeably and creatively combining principles of thermodynamics. We have given our latest thermodynamics exam not only to the students but also to OpenAI’s most powerful reasoning model, o3, and have assessed the answers of o3 exactly the same way as those of the students. In zero-shot mode, the model o3 solved all problems correctly, better than all students who took the exam; its overall score was in the range of the best scores we have seen in more than 10,000 similar exams since 1985. This is a turning point: machines now excel in complex tasks, usually taken as proof of human intellectual capabilities. We discuss the consequences this has for the work of engineers and the education of future engineers.

arxiv情報

著者 Rebecca Loubet,Pascal Zittlau,Marco Hoffmann,Luisa Vollmer,Sophie Fellenz,Heike Leitte,Fabian Jirasek,Johannes Lenhard,Hans Hasse
発行日 2025-06-11 15:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE | Superstudent intelligence in thermodynamics はコメントを受け付けていません

EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

要約

テキストからスピーチとオーディオ生成モデルの進歩には、AIシステムの感情的理解能力を評価するための堅牢なベンチマークが必要です。
現在の音声感情認識(SER)データセットは、多くの場合、感情的な粒度、プライバシーの懸念、または行動された描写に依存して制限を示します。
このペーパーでは、音声感情検出のための新しいリソースであるEmonet-Voice Big、大規模なトレーニング前データセット(11の声、40の感情、4つの言語にわたって4,500時間以上の音声を特徴)を含むEmonet-Voiceを紹介します。
Emonet-Voiceは、さまざまなレベルの強度を持つ40の感情カテゴリの微細なスペクトルでSERモデルを評価するように設計されています。
最先端の音声生成を活用して、特定の感情を呼び起こすように設計されたシーンを描いた俳優をシミュレートする合成オーディオスニペットをキュレーションしました。
重要なことに、知覚された強度ラベルを割り当てた心理学の専門家による厳密な検証を実施しました。
この合成的でプライバシーを摂取するアプローチにより、既存のデータセットにはしばしば敏感な感情状態が存在しないことがあります。
最後に、人間の専門家と高い一致を伴う音声感情認識の新しい基準を設定する共感的洞察音声モデルを紹介します。
現在のモデルの景観全体の評価は、集中力のような低覚醒状態よりも怒りのような高覚醒感などの貴重な感情など、貴重な発見を示しています。

要約(オリジナル)

The advancement of text-to-speech and audio generation models necessitates robust benchmarks for evaluating the emotional understanding capabilities of AI systems. Current speech emotion recognition (SER) datasets often exhibit limitations in emotional granularity, privacy concerns, or reliance on acted portrayals. This paper introduces EmoNet-Voice, a new resource for speech emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions, and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human expert annotations. EmoNet-Voice is designed to evaluate SER models on a fine-grained spectrum of 40 emotion categories with different levels of intensities. Leveraging state-of-the-art voice generation, we curated synthetic audio snippets simulating actors portraying scenes designed to evoke specific emotions. Crucially, we conducted rigorous validation by psychology experts who assigned perceived intensity labels. This synthetic, privacy-preserving approach allows for the inclusion of sensitive emotional states often absent in existing datasets. Lastly, we introduce Empathic Insight Voice models that set a new standard in speech emotion recognition with high agreement with human experts. Our evaluations across the current model landscape exhibit valuable findings, such as high-arousal emotions like anger being much easier to detect than low-arousal states like concentration.

arxiv情報

著者 Christoph Schuhmann,Robert Kaczmarczyk,Gollam Rabby,Felix Friedrich,Maurice Kraus,Kourosh Nadi,Huu Nguyen,Kristian Kersting,Sören Auer
発行日 2025-06-11 15:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection はコメントを受け付けていません

Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective

要約

抽象化と推論コーパス(ARC-AGI)は、大規模な言語モデル(LLM)に大きな課題を提起し、抽象的な推論能力の制限を明らかにします。
この作業では、トレーニング、生成、およびスコアリングフェーズ全体でタスク固有のデータ増強を活用し、深さファースト検索アルゴリズムを採用して、多様で高強化可能性の候補ソリューションを生成します。
さらに、LLMを発電機としてだけでなく、得点者としても使用して、その出力確率を使用して最も有望なソリューションを選択します。
私たちの方法では、公開ARC-AGI評価セットで71.6%(286.5/400の解決されたタスク)のスコアを達成し、公開されているアプローチの中で最先端のパフォーマンスを実証します。
同時クローズドソース作業はより高いスコアを報告していますが、私たちの方法は、その透明性、再現性、および著しく低い推論コストによって区別され、容易に利用可能なハードウェアで平均してタスクごとに平均しています(NVIDIA 4090 GPUの場合は36ct/時間の価格を想定しています)。

要約(オリジナル)

The Abstraction and Reasoning Corpus (ARC-AGI) poses a significant challenge for large language models (LLMs), exposing limitations in their abstract reasoning abilities. In this work, we leverage task-specific data augmentations throughout the training, generation, and scoring phases, and employ a depth-first search algorithm to generate diverse, high-probability candidate solutions. Furthermore, we utilize the LLM not only as a generator but also as a scorer, using its output probabilities to select the most promising solutions. Our method achieves a score of 71.6% (286.5/400 solved tasks) on the public ARC-AGI evaluation set, demonstrating state-of-the-art performance among publicly available approaches. While concurrent closed-source work has reported higher scores, our method distinguishes itself through its transparency, reproducibility, and remarkably low inference cost, averaging only around 2ct per task on readily available hardware (we assume a price of 36ct/hour for a Nvidia 4090 GPU).

arxiv情報

著者 Daniel Franzen,Jan Disselhoff,David Hartmann
発行日 2025-06-11 15:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective はコメントを受け付けていません

Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning

要約

チェーンオブ思考(COT)プロンプトは、複雑な推論能力を備えた大規模な言語モデル(LLM)を授与する上で不可欠な役割を果たします。
ただし、COTは現在、2つの基本的な課題に直面しています。(1)充足度。これにより、生成された中間推論ステップが最終的な結論を包括的にカバーし、実証することが保証されます。
(2)結果の答えの健全性に本当に不可欠な推論の手順を特定する必要性。
私たちは、十分性と必要性​​のデュアルレンズを通じてCOTの推論を特徴付ける因果フレームワークを提案します。
十分性と必要性​​の因果的確率を組み込むことで、予測の結果に論理的に十分または必要なステップを決定するだけでなく、異なる介入シナリオでの最終的な推論結果に対する実際の影響を定量化することにより、失われたステップの自動化された追加と還元剤の剪定が可能になります。
さまざまな数学的および常識的な推論ベンチマークに関する広範な実験結果は、推論効率の大幅な改善と、精度を犠牲にすることなくトークンの使用を減らすことを確認します。
私たちの仕事は、LLMの推論パフォーマンスと費用対効果を改善するための有望な方向性を提供します。

要約(オリジナル)

Chain-of-Thought (CoT) prompting plays an indispensable role in endowing large language models (LLMs) with complex reasoning capabilities. However, CoT currently faces two fundamental challenges: (1) Sufficiency, which ensures that the generated intermediate inference steps comprehensively cover and substantiate the final conclusion; and (2) Necessity, which identifies the inference steps that are truly indispensable for the soundness of the resulting answer. We propose a causal framework that characterizes CoT reasoning through the dual lenses of sufficiency and necessity. Incorporating causal Probability of Sufficiency and Necessity allows us not only to determine which steps are logically sufficient or necessary to the prediction outcome, but also to quantify their actual influence on the final reasoning outcome under different intervention scenarios, thereby enabling the automated addition of missing steps and the pruning of redundant ones. Extensive experimental results on various mathematical and commonsense reasoning benchmarks confirm substantial improvements in reasoning efficiency and reduced token usage without sacrificing accuracy. Our work provides a promising direction for improving LLM reasoning performance and cost-effectiveness.

arxiv情報

著者 Xiangning Yu,Zhuohan Wang,Linyi Yang,Haoxuan Li,Anjie Liu,Xiao Xue,Jun Wang,Mengyue Yang
発行日 2025-06-11 15:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, math.ST, stat.ME, stat.TH | Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning はコメントを受け付けていません

Guided Graph Compression for Quantum Graph Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、グラフ構造データの処理に効果的ですが、高いメモリ要件とGPUの非効率的なスパースマトリックス操作のために大きなグラフで課題に直面しています。
Quantum Computing(QC)は、これらの問題に対処するための有望な手段を提供し、新しいアルゴリズムアプローチを刺激します。
特に、最近の文献では、量子グラフニューラルネットワーク(QGNNS)が調査されています。
ただし、現在の量子ハードウェアは、効果的にエンコードできるデータの次元を制限します。
既存のアプローチは、データセットを手動で簡素化するか、人工グラフデータセットを使用します。
この作業では、Guided Graph Compression(GGC)フレームワークを紹介します。これは、グラフオートエンコーダーを使用して、ノードの数とノード機能の寸法の両方を減らすことです。
圧縮は、ダウンストリーム分類タスクのパフォーマンスを強化するように導かれます。ダウンストリーム分類タスクは、量子または古典的な分類器のいずれかで適用できます。
このフレームワークは、ジェットタグ付けタスクで評価されます。これは、クォークによって開始された粒子ジェットをグルオンによるものと区別する高エネルギー物理学における根本的な重要性の分類問題です。
GGCは、自動エンコーダーをスタンドアロン前処理ステップとして使用し、ベースラインクラシックGNN分類器と比較して比較されます。
私たちの数値結果は、GGCが両方の代替案よりも優れていると同時に、現実的なデータセットでの新しいQGNN Ansatzesのテストを促進することを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) are effective for processing graph-structured data but face challenges with large graphs due to high memory requirements and inefficient sparse matrix operations on GPUs. Quantum Computing (QC) offers a promising avenue to address these issues and inspires new algorithmic approaches. In particular, Quantum Graph Neural Networks (QGNNs) have been explored in recent literature. However, current quantum hardware limits the dimension of the data that can be effectively encoded. Existing approaches either simplify datasets manually or use artificial graph datasets. This work introduces the Guided Graph Compression (GGC) framework, which uses a graph autoencoder to reduce both the number of nodes and the dimensionality of node features. The compression is guided to enhance the performance of a downstream classification task, which can be applied either with a quantum or a classical classifier. The framework is evaluated on the Jet Tagging task, a classification problem of fundamental importance in high energy physics that involves distinguishing particle jets initiated by quarks from those by gluons. The GGC is compared against using the autoencoder as a standalone preprocessing step and against a baseline classical GNN classifier. Our numerical results demonstrate that GGC outperforms both alternatives, while also facilitating the testing of novel QGNN ansatzes on realistic datasets.

arxiv情報

著者 Mikel Casals,Vasilis Belis,Elias F. Combarro,Eduard Alarcón,Sofia Vallecorsa,Michele Grossi
発行日 2025-06-11 15:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, hep-ex, quant-ph | Guided Graph Compression for Quantum Graph Neural Networks はコメントを受け付けていません

Conformal Prediction as Bayesian Quadrature

要約

機械学習ベースの予測システムは、ハイステークスの状況でますます使用されているため、そのような予測モデルが展開時にどのように機能するかを理解することが重要です。
コンフォーマル予測などの分布のない不確実性の定量化手法は、モデルの詳細が隠されていても、ブラックボックスモデルの損失に関する保証を提供します。
ただし、そのような方法は、頻繁な確率に基づいており、適用性を過度に制限します。
私たちは、ベイジアンの観点からコンフォーマル予測の中心的な側面を再訪し、それによって頻繁な保証の欠点を明らかにします。
私たちは、解釈可能な保証を提供し、テスト時に観察される可能性のある損失の範囲をより豊かに表現するベイジアン四角系に基づく実用的な代替案を提案します。

要約(オリジナル)

As machine learning-based prediction systems are increasingly used in high-stakes situations, it is important to understand how such predictive models will perform upon deployment. Distribution-free uncertainty quantification techniques such as conformal prediction provide guarantees about the loss black-box models will incur even when the details of the models are hidden. However, such methods are based on frequentist probability, which unduly limits their applicability. We revisit the central aspects of conformal prediction from a Bayesian perspective and thereby illuminate the shortcomings of frequentist guarantees. We propose a practical alternative based on Bayesian quadrature that provides interpretable guarantees and offers a richer representation of the likely range of losses to be observed at test time.

arxiv情報

著者 Jake C. Snell,Thomas L. Griffiths
発行日 2025-06-11 15:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Conformal Prediction as Bayesian Quadrature はコメントを受け付けていません