Inductive Link Prediction on N-ary Relational Facts via Semantic Hypergraph Reasoning

要約

n-aryの関係事実は、3つ以上のエンティティ間のセマンティック相関を表しています。
最近の研究では、n-aryの関係事実を含む知識グラフ(KG)の欠落関係を推測するためのリンク予測(LP)方法を開発しましたが、それらは一般に導入設定に限定されています。
以前に見えないエンティティについて予測がなされている完全に帰納的設定は、依然として重要な課題です。
既存の方法は主にエンティティの組み込みベースであるため、エンティティに依存しない論理ルールをキャプチャするのに苦労しています。
このギャップを埋めるために、n-aryの関係事実に関する完全誘導リンク予測(ILP)のためのN-aryサブグラフ推論フレームワークを提案します。
このフレームワークは、地元のサブグラフに対する理由があり、N-aryパターンをキャプチャする強力な誘導推論能力を持っています。
具体的には、サブグラフの抽出を促進するために、新しいグラフ構造であるn-aryセマンティックハイパーグラフを導入します。
さらに、サブグラフ集約ネットワークNS-HARTを開発して、サブグラフ内の複雑なセマンティック相関を効果的に採掘します。
理論的には、スコア関数の最適化の観点から、N-ary ILPタスクに対するNS-Hartの有効性に光を当てるように、徹底的な分析を提供します。
経験的には、転送推論(エンティティ機能の有無にかかわらず)やペアワイズサブグラフの推論など、一連の帰納ベンチマークで広範な実験を実施します。
結果は、N-aryサブグラフ推論フレームワークの優位性と、NS-HARTの例外的な帰納能力を強調しています。
このペーパーのソースコードは、https://github.com/yin-gz/nary-inductive-subgraphで公開されています。

要約(オリジナル)

N-ary relational facts represent semantic correlations among more than two entities. While recent studies have developed link prediction (LP) methods to infer missing relations for knowledge graphs (KGs) containing n-ary relational facts, they are generally limited to transductive settings. Fully inductive settings, where predictions are made on previously unseen entities, remain a significant challenge. As existing methods are mainly entity embedding-based, they struggle to capture entity-independent logical rules. To fill in this gap, we propose an n-ary subgraph reasoning framework for fully inductive link prediction (ILP) on n-ary relational facts. This framework reasons over local subgraphs and has a strong inductive inference ability to capture n-ary patterns. Specifically, we introduce a novel graph structure, the n-ary semantic hypergraph, to facilitate subgraph extraction. Moreover, we develop a subgraph aggregating network, NS-HART, to effectively mine complex semantic correlations within subgraphs. Theoretically, we provide a thorough analysis from the score function optimization perspective to shed light on NS-HART’s effectiveness for n-ary ILP tasks. Empirically, we conduct extensive experiments on a series of inductive benchmarks, including transfer reasoning (with and without entity features) and pairwise subgraph reasoning. The results highlight the superiority of the n-ary subgraph reasoning framework and the exceptional inductive ability of NS-HART. The source code of this paper has been made publicly available at https://github.com/yin-gz/Nary-Inductive-SubGraph.

arxiv情報

著者 Gongzhu Yin,Hongli Zhang,Yuchen Yang,Yi Luo
発行日 2025-03-26 16:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.4 | Inductive Link Prediction on N-ary Relational Facts via Semantic Hypergraph Reasoning はコメントを受け付けていません

Graph-Enhanced Model-Free Reinforcement Learning Agents for Efficient Power Grid Topological Control

要約

電力装置の出現とよりクリーンなエネルギーソリューションの需要によって推進される電力網状管理の複雑さの増加は、安定性と効率を確保するために革新的なアプローチを必要としています。
このペーパーでは、事前の専門知識なしにパワーネットワーク運用を最適化することを目的とした、強化学習のモデルフリーフレームワーク内の新しいアプローチを紹介します。
マスクされたトポロジカルアクションスペースを導入し、エージェントが適切なアクションを選択するためのガイドとして状態ロジックを使用して信頼できるサービスを維持しながら、コスト削減のための多様な戦略を探求できるようにします。
シミュレートされた5つのスブステーション環境での20の異なるシナリオにわたる広範な実験を通じて、私たちのアプローチが潜在的な停電に対するグリッドの安定性を確保しながら、電力損失の一貫した削減を達成することを実証します。
結果は、動的な観察の形式化を相手ベースのトレーニングと組み合わせることの有効性を強調し、現代のエネルギーシステムにおける自律的な管理ソ​​リューション、またはこの分野の基礎モデルを構築するための実行可能な方法を示しています。

要約(オリジナル)

The increasing complexity of power grid management, driven by the emergence of prosumers and the demand for cleaner energy solutions, has needed innovative approaches to ensure stability and efficiency. This paper presents a novel approach within the model-free framework of reinforcement learning, aimed at optimizing power network operations without prior expert knowledge. We introduce a masked topological action space, enabling agents to explore diverse strategies for cost reduction while maintaining reliable service using the state logic as a guide for choosing proper actions. Through extensive experimentation across 20 different scenarios in a simulated 5-substation environment, we demonstrate that our approach achieves a consistent reduction in power losses, while ensuring grid stability against potential blackouts. The results underscore the effectiveness of combining dynamic observation formalization with opponent-based training, showing a viable way for autonomous management solutions in modern energy systems or even for building a foundational model for this field.

arxiv情報

著者 Eloy Anguiano Batanero,Ángela Fernández,Álvaro Barbero
発行日 2025-03-26 16:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Graph-Enhanced Model-Free Reinforcement Learning Agents for Efficient Power Grid Topological Control はコメントを受け付けていません

Semiring Provenance for Lightweight Description Logics

要約

Semiringの起源(リレーショナルデータベースの設定で元々定義されていた成功したフレームワーク)を調査するために調査します。
これに関連して、オントロジー公理には通勤したセミングの要素が注釈が付けられ、これらの注釈は、それらがどのように導き出されるかを反映する方法でオントロジーの結果に伝播されます。
いくつかの軽量の説明ロジックを含む言語の出所セマンティクスを定義し、特定の種類の注釈(ファジー度など)で注釈が付けられたオントロジーについて定義されているセマンティクスとの関係を示します。
セマイニングに関するいくつかの制限の下で、セマンティクスは望ましい特性(データベースで定義されたセマイヤーの起源を拡張するなど)を満たしていることを示します。
次に、よく知られている理由に焦点を当てます。そのためには、アサーションまたは接続詞の回答の出所に関連する問題の複雑さを研究します。
最後に、データベース設定におけるいわゆる陽性ブールの起源と系統に対応する2つのさらに制限されたケースを検討します。
これらのケースでは、説明ロジックの説明に関連するよく知られている概念との関係を示し、複雑さ分析を完了します。
副次的な貢献として、$ \ mathcal {elhi} _ \ bot $ ontologyの条件を扱いやすい推論を保証します。

要約(オリジナル)

We investigate semiring provenance–a successful framework originally defined in the relational database setting–for description logics. In this context, the ontology axioms are annotated with elements of a commutative semiring and these annotations are propagated to the ontology consequences in a way that reflects how they are derived. We define a provenance semantics for a language that encompasses several lightweight description logics and show its relationships with semantics that have been defined for ontologies annotated with a specific kind of annotation (such as fuzzy degrees). We show that under some restrictions on the semiring, the semantics satisfies desirable properties (such as extending the semiring provenance defined for databases). We then focus on the well-known why-provenance, for which we study the complexity of problems related to the provenance of an assertion or a conjunctive query answer. Finally, we consider two more restricted cases which correspond to the so-called positive Boolean provenance and lineage in the database setting. For these cases, we exhibit relationships with well-known notions related to explanations in description logics and complete our complexity analysis. As a side contribution, we provide conditions on an $\mathcal{ELHI}_\bot$ ontology that guarantee tractable reasoning.

arxiv情報

著者 Camille Bourgaux,Ana Ozaki,Rafael Peñaloza
発行日 2025-03-26 16:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LO | Semiring Provenance for Lightweight Description Logics はコメントを受け付けていません

Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization

要約

敵対的な摂動に対する深い分類器の堅牢性を改善するために、より良い堅牢性特性(Lippschitz-Cappedネットワークなど)を備えた新しいアーキテクチャの設計、トレーニングプロセス自体の修正(Min-Max最適化、制約学習、正規化など)など、多くのアプローチが提案されています。
ただし、これらのアプローチは、入力(機能)スペースのマージンを増やすのに効果的ではない場合があります。
その結果、入力スペースの決定境界を直接操作できるトレーニング手順の開発に関心が高まっています。
この論文では、脆弱な方向に沿ってモデルのリプシッツ定数を正規化しながら、出力(ロジット)スペースのマージンを増やすことを目的とする堅牢なトレーニングアルゴリズムを開発することにより、このカテゴリの最近の開発に基づいて構築されます。
これらの2つの目的は、入力スペースのより大きなマージンを直接促進できることを示しています。
この目的のために、ニューラルネットワークのリプシッツ定数の保証された微分上の上限を正確かつ効率的に計算するためのスケーラブルな方法を開発します。
境界の相対的な精度は、過度の正則化を防ぎ、決定境界のより直接的な操作を可能にします。
さらに、私たちのLippschitzの境界アルゴリズムは、活性化層の単調性とリプシッツの連続性を活用し、結果の境界を使用して、リプシッツ定数に制御可能な境界を持つ新しい層を設計できます。
MNIST、CIFAR-10、およびTiny-Imagenetデータセットに関する実験では、提案されているアルゴリズムが最先端と比較して競合的に改善された結果を得ることが確認されています。

要約(オリジナル)

To improve the robustness of deep classifiers against adversarial perturbations, many approaches have been proposed, such as designing new architectures with better robustness properties (e.g., Lipschitz-capped networks), or modifying the training process itself (e.g., min-max optimization, constrained learning, or regularization). These approaches, however, might not be effective at increasing the margin in the input (feature) space. As a result, there has been an increasing interest in developing training procedures that can directly manipulate the decision boundary in the input space. In this paper, we build upon recent developments in this category by developing a robust training algorithm whose objective is to increase the margin in the output (logit) space while regularizing the Lipschitz constant of the model along vulnerable directions. We show that these two objectives can directly promote larger margins in the input space. To this end, we develop a scalable method for calculating guaranteed differentiable upper bounds on the Lipschitz constant of neural networks accurately and efficiently. The relative accuracy of the bounds prevents excessive regularization and allows for more direct manipulation of the decision boundary. Furthermore, our Lipschitz bounding algorithm exploits the monotonicity and Lipschitz continuity of the activation layers, and the resulting bounds can be used to design new layers with controllable bounds on their Lipschitz constant. Experiments on the MNIST, CIFAR-10, and Tiny-ImageNet data sets verify that our proposed algorithm obtains competitively improved results compared to the state-of-the-art.

arxiv情報

著者 Mahyar Fazlyab,Taha Entesari,Aniket Roy,Rama Chellappa
発行日 2025-03-26 16:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization はコメントを受け付けていません

Graph-Instructed Neural Networks for Sparse Grid-Based Discontinuity Detectors

要約

この論文では、不連続機能の不連続インターフェイスを検出するための新しいアプローチを提示します。
このアプローチは、グラフにインストールされたニューラルネットワーク(GINNS)とスパースグリッドを活用して、3を超えるディメンションのドメインでも不連続検出に対処します。ジンは、スパースグリッド上の問題を識別するように訓練され、グリッドに構築されたグラフ構造を悪用して、効率的で正確な不連続検出パフォーマンスを実現します。
また、収束特性と簡単な適用性を特徴とする、一般的なスパースグリッドベースの検出器のための再帰アルゴリズムも紹介します。
寸法n = 2およびn = 4の関数に関する数値実験は、不連続インターフェイスの検出におけるGINNの効率と堅牢な一般化特性を示しています。
特に、訓練されたジンは、携帯性と汎用性を提供し、さまざまなアルゴリズムへの統合とユーザー間の共有を可能にします。

要約(オリジナル)

In this paper, we present a novel approach for detecting the discontinuity interfaces of a discontinuous function. This approach leverages Graph-Instructed Neural Networks (GINNs) and sparse grids to address discontinuity detection also in domains of dimension larger than 3. GINNs, trained to identify troubled points on sparse grids, exploit graph structures built on the grids to achieve efficient and accurate discontinuity detection performances. We also introduce a recursive algorithm for general sparse grid-based detectors, characterized by convergence properties and easy applicability. Numerical experiments on functions with dimensions n = 2 and n = 4 demonstrate the efficiency and robust generalization properties of GINNs in detecting discontinuity interfaces. Notably, the trained GINNs offer portability and versatility, allowing integration into various algorithms and sharing among users.

arxiv情報

著者 Francesco Della Santa,Sandra Pieraccini
発行日 2025-03-26 16:57:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 03D32, 65D40, 68T07, cs.AI, cs.LG, cs.NA, math.NA | Graph-Instructed Neural Networks for Sparse Grid-Based Discontinuity Detectors はコメントを受け付けていません

Quantum Neural Network Restatement of Markov Jump Process

要約

探索的データ分析における多くの課題にもかかわらず、人工ニューラルネットワークは、理論的および実用的なアプリケーションの両方で科学者と研究者に強い関心を動機付けてきました。
人工ニューラルネットワークのこのような人気のソースの中で、非線形動的システム、一般化、および適応の可能性をモデル化する能力が言及されるべきです。
それにもかかわらず、データ学習と予測のためのユニークな構造を安定化する上でのさまざまな基礎となる確率プロセスの役割については、依然として重要な議論があります。
機械インテリジェントシステムの理論的および数値的研究に対するこのような障害の1つは、次元の呪いと高次元確率分布からのサンプリングです。
一般に、この呪いは状態の効率的な説明を防ぎ、システムが効率的に説明および研究されるための重要な複雑さの障壁を提供します。
この一連の研究では、量子情報に関する学習理論のそのような抽象的な概念の直接的な治療と説明が最も有利な候補の1つです。
したがって、これらの記事の主題は、量子機械システムの観点からの設計、適応、および計算的に困難な問題の定式化の問題に専念しています。
推論統計の言語におけるこのようなダイナミクスの微視的記述を特徴付けるために、D次元ガウス密度の共分散行列推定と動的システムの固有値問題のベイズ解釈が評価されます。

要約(オリジナル)

Despite the many challenges in exploratory data analysis, artificial neural networks have motivated strong interests in scientists and researchers both in theoretical as well as practical applications. Among sources of such popularity of artificial neural networks the ability of modeling non-linear dynamical systems, generalization, and adaptation possibilities should be mentioned. Despite this, there is still significant debate about the role of various underlying stochastic processes in stabilizing a unique structure for data learning and prediction. One of such obstacles to the theoretical and numerical study of machine intelligent systems is the curse of dimensionality and the sampling from high-dimensional probability distributions. In general, this curse prevents efficient description of states, providing a significant complexity barrier for the system to be efficiently described and studied. In this strand of research, direct treatment and description of such abstract notions of learning theory in terms of quantum information be one of the most favorable candidates. Hence, the subject matter of these articles is devoted to problems of design, adaptation and the formulations of computationally hard problems in terms of quantum mechanical systems. In order to characterize the microscopic description of such dynamics in the language of inferential statistics, covariance matrix estimation of d-dimensional Gaussian densities and Bayesian interpretation of eigenvalue problem for dynamical systems is assessed.

arxiv情報

著者 Z. Zarezadeh,N. Zarezadeh
発行日 2025-03-26 17:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA | Quantum Neural Network Restatement of Markov Jump Process はコメントを受け付けていません

Optimal Scaling Laws for Efficiency Gains in a Theoretical Transformer-Augmented Sectional MoE Framework

要約

このペーパーでは、モデルのスケーラビリティを維持しながら計算効率を向上させることを目的とした、変圧器の能力のある断面混合物(MOE)アーキテクチャの理論的枠組みを紹介します。
トークンの埋め込み全体を選択した専門家にルーティングする従来のMOEモデルとは異なり、私たちのアプローチは、各トークンの表現のセグメントを献身的な専門家に割り当てます。
トークン表現の損失と戦うために、エクササイズ前の変圧器層を利用して、トークン全体で注意を再計算し、シーケンスの長さの次元を減らします。
専門家の数とモデルの寸法、シーケンス長、システムオーバーヘッドなどの要因との間に非線形関係があるという最適なスケーリング法則を導き出すことにより、理論を拡張します。
これらの製剤は、特定のアーキテクチャおよびハードウェアの制約の下で最適な専門家数を識別するための閉じた形式と数値的に溶接性のある式をもたらします。
その結果、私たちのフレームワークは、さまざまなフレームワークでコンピューティング効率の理論的境界を提供するだけでなく、大きなモデルを効果的にスケーリングするための実用的な設計選択もガイドします。
経験的検証は保留中ですが、将来の仕事におけるフレームワークの効率、スケーラビリティ、および実用性を評価するために、包括的な実験的ロードマップを提示します。

要約(オリジナル)

This paper introduces a theoretical framework for a Transformer-augmented, sectional Mixture-of-Experts (MoE) architecture that aims to enhance computational efficiency while preserving model scalability. Unlike conventional MoE models, which route entire token embeddings to selected experts, our approach portions the embedding dimension itself — assigning segments of each token’s representation to dedicated experts. To combat losses in token representation, we utilize a pre-expert transformer layer to recompute attention across tokens and reduce the sequence length dimensionality. We extend our theory by deriving optimal scaling laws that a non-linear relationship between the number of experts and factors such as model dimensionality, sequence length, and system overhead. These formulations yield closed-form and numerically-solvable expressions for identifying the optimal expert count under given architectural and hardware constraints. As a result, our framework not only provides theoretical bounds for computing efficiency with varying frameworks but also guides practical design choices for scaling large models effectively. While empirical validation is pending, we present a comprehensive experimental road map to evaluate the framework’s efficiency, scalability, and practicality in future work.

arxiv情報

著者 Soham Sane
発行日 2025-03-26 17:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Optimal Scaling Laws for Efficiency Gains in a Theoretical Transformer-Augmented Sectional MoE Framework はコメントを受け付けていません

Task-Specific Activation Functions for Neuroevolution using Grammatical Evolution

要約

活性化関数は、ニューラルネットワークのパフォーマンスと挙動に重要な役割を果たし、学習と一般化の能力に大きな影響を与えます。
Relu、Sigmoid、Tanhなどの従来の活性化機能は、かなりの成功を収めて広く使用されています。
ただし、これらの機能は、すべてのタスクとデータセットに常に最適なパフォーマンスを提供するとは限りません。
この論文では、Neuvo Geafを紹介します。これは、文法進化(GE)を活用して、特定のニューラルネットワークアーキテクチャとデータセットに合わせた新しい活性化関数を自動的に進化させる革新的なアプローチです。
よく知られているバイナリ分類データセットで実施された実験では、同一のネットワークアーキテクチャを使用したReluよりもF1スコア(2.4%から9.4%)の統計的に有意な改善が示されています。
特に、これらのパフォーマンスの向上は、ネットワークのパラメーターカウントを増やすことなく達成され、リソース制約のエッジデバイスで効果的に動作できる、より効率的なニューラルネットワークへの傾向をサポートしています。
このホワイトペーパーの調査結果は、進化した活性化機能が、トレーニング段階と推論段階の両方でエネルギー効率を維持しながら、コンパクトネットワークに大幅なパフォーマンスの改善を提供できることを示唆しています。

要約(オリジナル)

Activation functions play a critical role in the performance and behaviour of neural networks, significantly impacting their ability to learn and generalise. Traditional activation functions, such as ReLU, sigmoid, and tanh, have been widely used with considerable success. However, these functions may not always provide optimal performance for all tasks and datasets. In this paper, we introduce Neuvo GEAF – an innovative approach leveraging grammatical evolution (GE) to automatically evolve novel activation functions tailored to specific neural network architectures and datasets. Experiments conducted on well-known binary classification datasets show statistically significant improvements in F1-score (between 2.4% and 9.4%) over ReLU using identical network architectures. Notably, these performance gains were achieved without increasing the network’s parameter count, supporting the trend toward more efficient neural networks that can operate effectively on resource-constrained edge devices. This paper’s findings suggest that evolved activation functions can provide significant performance improvements for compact networks while maintaining energy efficiency during both training and inference phases.

arxiv情報

著者 Benjamin David Winter,William John Teahan
発行日 2025-03-26 17:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Task-Specific Activation Functions for Neuroevolution using Grammatical Evolution はコメントを受け付けていません

Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks

要約

この研究は、ファイナンスおよび会計研究における大規模な言語モデル(LLM)出力における一貫性と再現性に関する最初の包括的な評価を提供します。
LLMは、分類、センチメント分析、要約、テキスト生成、予測の5つの一般的なタスクにわたる50の独立した実行を使用した広範な実験を通じて、同一の入力を与えられた一貫したLLMがどのように出力を生成するかを評価します。
3つのOpenAIモデル(GPT-3.5-ターボ、GPT-4O-MINI、およびGPT-4O)を使用して、MD&ASをカバーする多様な財務源テキストとデータから340万以上の出力を生成し、FOMCステートメント、財務ニュース記事、収益コールトランスクリプト、財務諸表をカバーします。
私たちの調査結果は、バイナリ分類と感情分析がほぼ完璧な再現性を達成することで、実質的であるがタスク依存性の一貫性を明らかにし、複雑なタスクはより大きなばらつきを示しています。
より高度なモデルは、タスク固有のパターンが出現し、より良い一貫性と再現性を一貫して実証するものではありません。
LLMSは、人間の専門家が大幅に同意しない場合でも、専門家のアノテーターよりも一貫性のある人間のアノテーターを大幅に上回り、高い合意を維持します。
さらに、3〜5回の実行にわたる単純な集約戦略が一貫性を劇的に改善することがわかります。
また、新しいモデルを使用する際に、センチメント分析の精度が向上するという追加の利点がある可能性があることがわかります。
シミュレーション分析により、LLM出力で測定可能な矛盾にもかかわらず、下流の統計的推論は著しく堅牢であることが明らかになりました。
これらの調査結果は、私たちが「G-Hacking」と呼ぶもの、複数の生成AIが実行する有利な結果の選択的報告を、そのようなリスクが金融および会計タスクで比較的低いことを実証することに関する懸念に対処しています。

要約(オリジナル)

This study provides the first comprehensive assessment of consistency and reproducibility in Large Language Model (LLM) outputs in finance and accounting research. We evaluate how consistently LLMs produce outputs given identical inputs through extensive experimentation with 50 independent runs across five common tasks: classification, sentiment analysis, summarization, text generation, and prediction. Using three OpenAI models (GPT-3.5-turbo, GPT-4o-mini, and GPT-4o), we generate over 3.4 million outputs from diverse financial source texts and data, covering MD&As, FOMC statements, finance news articles, earnings call transcripts, and financial statements. Our findings reveal substantial but task-dependent consistency, with binary classification and sentiment analysis achieving near-perfect reproducibility, while complex tasks show greater variability. More advanced models do not consistently demonstrate better consistency and reproducibility, with task-specific patterns emerging. LLMs significantly outperform expert human annotators in consistency and maintain high agreement even where human experts significantly disagree. We further find that simple aggregation strategies across 3-5 runs dramatically improve consistency. We also find that aggregation may come with an additional benefit of improved accuracy for sentiment analysis when using newer models. Simulation analysis reveals that despite measurable inconsistency in LLM outputs, downstream statistical inferences remain remarkably robust. These findings address concerns about what we term ‘G-hacking,’ the selective reporting of favorable outcomes from multiple Generative AI runs, by demonstrating that such risks are relatively low for finance and accounting tasks.

arxiv情報

著者 Julian Junyan Wang,Victor Xiaoqi Wang
発行日 2025-03-26 17:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG, q-fin.GN | Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks はコメントを受け付けていません

Understanding R1-Zero-Like Training: A Critical Perspective

要約

Deepseek-R1-Zeroは、大規模な補強学習(RL)が、監視された微調整なしでLLMの推論能力を直接強化できることを示しています。
この作業では、ベースモデルとRLという2つのコアコンポーネントを分析することにより、R1-ゼロのようなトレーニングを批判的に調べます。
DeepSeek-V3-baseを含む幅広いベースモデルを調査して、事前トレーニングの特性がRLのパフォーマンスにどのように影響するかを理解します。
私たちの分析では、DeepSeek-V3-Baseがすでに「Aha Moment」を示していることが明らかになりましたが、QWEN2.5ベースモデルは、迅速なテンプレートがなくても強い推論能力を示し、潜在的な事前トレーニングバイアスを示唆しています。
さらに、トレーニング中に応答長を人為的に(特に間違った出力)増加させるグループ相対ポリシー最適化(GRPO)の最適化バイアスを特定します。
これに対処するために、推論パフォーマンスを維持しながらトークンの効率を向上させる公平な最適化方法であるGRPO博士を紹介します。
これらの洞察を活用して、7BベースモデルでAIME 2024で43.3%の精度を達成するミニマリストR1-Zeroレシピを紹介し、新しい最先端を確立します。
私たちのコードは、https://github.com/sail-sg/understand-r1-zeroで入手できます。

要約(オリジナル)

DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ”Aha moment”, while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.

arxiv情報

著者 Zichen Liu,Changyu Chen,Wenjun Li,Penghui Qi,Tianyu Pang,Chao Du,Wee Sun Lee,Min Lin
発行日 2025-03-26 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Understanding R1-Zero-Like Training: A Critical Perspective はコメントを受け付けていません