Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2

要約

このテクニカルレポートでは、継続的な学習の観点からCulturaxのリトアニア語コンポーネントで10 \%を持つGemma2 Parameter Large Langualsed Model(LLM)のGemma2の自己回帰前トレーニングに関する実験について説明しています。
モデルのパラメーターの完全なセットに弾性重量統合(EWC)を適用し、Arc、Belebele、GSM8K、Hellaswag、MMLU、Truthfulqa、およびWinograndeセット(英語とリトアニアの両方のバージョン)、およびPerplexity Benchmarksで構成される言語理解ベンチマークを調査します。
EWCの正則化により、壊滅的な忘却効果を緩和するだけでなく、LLMSを使用した新しいタスクを学ぶのに有益である可能性があることを経験的に実証します。

要約(オリジナル)

This technical report describes an experiment on autoregressive pre-training of Gemma2 2 billion parameter large language model (LLM) with 10\% on the Lithuanian language component of CulturaX from the point of view of continual learning. We apply elastic weight consolidation (EWC) to the full set of the model’s parameters and investigate language understanding benchmarks, consisting of Arc, Belebele, Gsm8K, Hellaswag, MMLU, TruthfulQA, and Winogrande sets (both in English and Lithuanian versions), and perplexity benchmarks. We empirically demonstrate that EWC regularisation allows us not only to mitigate catastrophic forgetting effects but also that it is potentially beneficial for learning of the new task with LLMs.

arxiv情報

著者 Vytenis Šliogeris,Povilas Daniušis,Artūras Nakvosas
発行日 2025-05-09 10:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2 はコメントを受け付けていません

AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence

要約

機械学習の驚くべき進歩にもかかわらず、現在のAIシステムは、真の人間のような知性に及ばないままです。
大規模な言語モデル(LLM)はパターン認識と応答生成に優れていますが、真の理解はありません – 人工的な一般情報(AGI)の本質的な特徴です。
既存のAGI評価方法は、実用的、漸進的、有益なメトリックを提供できません。
このペーパーでは、認知能力の潜在的な出現のための信号処理レベルの基礎を形成する12の厳密なテストを含む、人工的な一般情報テストベッド(AGITB)を紹介します。
AGITBは、シンボリック表現や事前削除に依存することなく、時間を越えてバイナリ信号を予測するモデルの能力を通じて知性を評価します。
言語や知覚に基づいた高レベルのテストとは異なり、AGITBは、決定論、感度、一般化などの生物学的知性を反映したコア計算不変物に焦点を当てています。
テストベッドは、以前のバイアスを想定せず、セマンティックな意味とは独立して動作し、ブルートフォースまたは暗記を通じて解決能力を保証します。
人間は設計上AgitBを通過しますが、現在のAIシステムはその基準を満たしていないため、AgitBはAGIへの進歩を導き、認識するための説得力のあるベンチマークになりました。

要約(オリジナル)

Despite remarkable progress in machine learning, current AI systems continue to fall short of true human-like intelligence. While Large Language Models (LLMs) excel in pattern recognition and response generation, they lack genuine understanding – an essential hallmark of Artificial General Intelligence (AGI). Existing AGI evaluation methods fail to offer a practical, gradual, and informative metric. This paper introduces the Artificial General Intelligence Test Bed (AGITB), comprising twelve rigorous tests that form a signal-processing-level foundation for the potential emergence of cognitive capabilities. AGITB evaluates intelligence through a model’s ability to predict binary signals across time without relying on symbolic representations or pretraining. Unlike high-level tests grounded in language or perception, AGITB focuses on core computational invariants reflective of biological intelligence, such as determinism, sensitivity, and generalisation. The test bed assumes no prior bias, operates independently of semantic meaning, and ensures unsolvability through brute force or memorization. While humans pass AGITB by design, no current AI system has met its criteria, making AGITB a compelling benchmark for guiding and recognizing progress toward AGI.

arxiv情報

著者 Matej Šprogar
発行日 2025-05-09 11:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence はコメントを受け付けていません

A Noise-Resilient Semi-Supervised Graph Autoencoder for Overlapping Semantic Community Detection

要約

構造が重複するネットワークでのコミュニティの検出は、特にトポロジー、ノード属性、および以前の情報を統合する騒々しい現実世界環境で重要であるという重要な課題のままです。
これに対処するために、グラフマルチヘッドの注意とモジュール性の最大化を組み合わせて、重複するコミュニティを堅牢に検出する半検証グラフオートエンコーダーを提案します。
このモデルは、構造、属性、および事前知識を融合させ、ノード機能のノイズに明示的に対処することにより、セマンティック表現を学習します。
主要な革新には、騒音耐性アーキテクチャと、モジュール性の制約を通じてコミュニティの品質に最適化されたセマンティックなセミスパビゼーションされた設計が含まれます。
実験は優れたパフォーマンスを示しています。モデルは、コミュニティの検出(NMIおよびF1スコアの改善)の重複の最先端の方法よりも優れており、ノイズを属性に属性に並べ替えて、60 \%の特徴の腐敗の下で安定したパフォーマンスを維持します。
これらの結果は、複雑なネットワークでの正確なコミュニティ発見のための属性セマンティクスと構造パターンを統合することの重要性を強調しています。

要約(オリジナル)

Community detection in networks with overlapping structures remains a significant challenge, particularly in noisy real-world environments where integrating topology, node attributes, and prior information is critical. To address this, we propose a semi-supervised graph autoencoder that combines graph multi-head attention and modularity maximization to robustly detect overlapping communities. The model learns semantic representations by fusing structural, attribute, and prior knowledge while explicitly addressing noise in node features. Key innovations include a noise-resistant architecture and a semantic semi-supervised design optimized for community quality through modularity constraints. Experiments demonstrate superior performance the model outperforms state-of-the-art methods in overlapping community detection (improvements in NMI and F1-score) and exhibits exceptional robustness to attribute noise, maintaining stable performance under 60\% feature corruption. These results highlight the importance of integrating attribute semantics and structural patterns for accurate community discovery in complex networks.

arxiv情報

著者 Abdelfateh Bekkair,Slimane Bellaouar,Slimane Oulad-Naoui
発行日 2025-05-09 11:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SI | A Noise-Resilient Semi-Supervised Graph Autoencoder for Overlapping Semantic Community Detection はコメントを受け付けていません

Pseudo-Boolean d-DNNF Compilation for Expressive Feature Modeling Constructs

要約

構成可能なシステムは通常、互いに依存関係を持つ再利用可能な資産で構成されています。
このような依存関係を指定するために、特徴モデルが一般的に使用されます。
実際の機能モデルは複雑であるため、通常、自動化された推論が依存関係を分析するために採用されています。
ここでは、事実上の標準は、SATや#SATソルバーなどの既製のツールを採用できるように、機能モデルを組み合わせの通常のフォーム(CNF)に翻訳しています。
ただし、最新の機能モデリング方言には、CNFへの変換に適していないカーディナリティの制約などの構造物が含まれています。
推論エンジンの入力と利用可能な機能モデリングの方言との間のこの不一致は、より表現力のある構造の適用性を制限します。
この作業では、表現力豊かな構造とスケーラブルな自動化された推論との間のこのギャップを短縮します。
私たちの貢献は2つあります。まず、特徴モデル向けの擬似ブールのエンコードを提供します。これにより、ブールエンコードと比較して、一般的に使用されるコンストラクトの小さな表現が容易になります。
第二に、擬似ブール式をブールd-dnnfにコンパイルする新しい方法を提案します。
コンパイルされたD-DNNFSを使用すると、機能モデリングですでに使用されている多くの効率的な分析に頼ることができます。
私たちの経験的評価は、私たちの提案が表現力豊かな構造のCNF入力に基づいて、最先端を大幅に上回ることを示しています。
さまざまな機能モデルと機能モデリングコンストラクトを表すすべてのデータセットについて、機能モデルはCNFよりも擬似ブールに翻訳されることが大幅に高速になります。
全体として、ターゲットを絞った表現的制約を備えた機能モデルからD-DNNFを導き出すことは、擬似ブールのアプローチを使用して実質的に加速できます。
さらに、私たちのアプローチは、基本的なコンストラクトのみを備えた機能モデルで競争力があります。

要約(オリジナル)

Configurable systems typically consist of reusable assets that have dependencies between each other. To specify such dependencies, feature models are commonly used. As feature models in practice are often complex, automated reasoning is typically employed to analyze the dependencies. Here, the de facto standard is translating the feature model to conjunctive normal form (CNF) to enable employing off-the-shelf tools, such as SAT or #SAT solvers. However, modern feature-modeling dialects often contain constructs, such as cardinality constraints, that are ill-suited for conversion to CNF. This mismatch between the input of reasoning engines and the available feature-modeling dialects limits the applicability of the more expressive constructs. In this work, we shorten this gap between expressive constructs and scalable automated reasoning. Our contribution is twofold: First, we provide a pseudo-Boolean encoding for feature models, which facilitates smaller representations of commonly employed constructs compared to Boolean encoding. Second, we propose a novel method to compile pseudo-Boolean formulas to Boolean d-DNNF. With the compiled d-DNNFs, we can resort to a plethora of efficient analyses already used in feature modeling. Our empirical evaluation shows that our proposal substantially outperforms the state-of-the-art based on CNF inputs for expressive constructs. For every considered dataset representing different feature models and feature-modeling constructs, the feature models can be significantly faster translated to pseudo-Boolean than to CNF. Overall, deriving d-DNNFs from a feature model with the targeted expressive constraints can be substantially accelerated using our pseudo-Boolean approach. Furthermore, our approach is competitive on feature models with only basic constructs.

arxiv情報

著者 Chico Sundermann,Stefan Vill,Elias Kuiter,Sebastian Krieter,Thomas Thüm,Matthias Tichy
発行日 2025-05-09 12:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO, cs.SE | Pseudo-Boolean d-DNNF Compilation for Expressive Feature Modeling Constructs はコメントを受け付けていません

Minimal Sequent Calculus for Teaching First-Order Logic: Lessons Learned

要約

MINICALCは、最小限のシーケント計算に基づいて1次ロジックを教えるためのWebアプリです。
オプションとして、イザベルプルーフアシスタントで証明を検証できます。
近年、大学でツールを使用して学んだ教訓を紹介します。

要約(オリジナル)

MiniCalc is a web app for teaching first-order logic based on a minimal sequent calculus. As an option the proofs can be verified in the Isabelle proof assistant. We present the lessons learned using the tool in recent years at our university.

arxiv情報

著者 Jørgen Villadsen
発行日 2025-05-09 12:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO, I.2.3 | Minimal Sequent Calculus for Teaching First-Order Logic: Lessons Learned はコメントを受け付けていません

Universal Approximation Theorem for Deep Q-Learning via FBSDE System

要約

ディープQネットワーク(DQNS)の近似能力は、一般的に、ベルマン方程式の解である最適なQ機能の固有の構造特性を活用しない一般的なユニバーサル近似定理(UAT)によって正当化されます。
このペーパーでは、Bellmanの更新に固有の反復精製プロセスをエミュレートするように設計されたアーキテクチャが設計されたDQNSのクラスのUATを確立します。
私たちの分析の中心的な要素は規則性の伝播です。単一のベルマンオペレーターアプリケーションによって誘導される変換は、後方の確率的微分方程式(BSDES)理論が分析ツールを提供する規則性を示します。
動的プログラミングの原則。
機能空間に作用する神経演算子として考案された深い残留ネットワークの層が、ベルマン演算子の作用を近似できることを実証します。
したがって、結果の近似定理は、コントロール問題の構造に本質的にリンクされており、制御された誤差伝播を伴う値関数の改良の反復にネットワークの深さが直接対応する証拠手法を提供します。
この視点は、価値関数の空間でのネットワークの操作の動的なシステムビューを明らかにしています。

要約(オリジナル)

The approximation capabilities of Deep Q-Networks (DQNs) are commonly justified by general Universal Approximation Theorems (UATs) that do not leverage the intrinsic structural properties of the optimal Q-function, the solution to a Bellman equation. This paper establishes a UAT for a class of DQNs whose architecture is designed to emulate the iterative refinement process inherent in Bellman updates. A central element of our analysis is the propagation of regularity: while the transformation induced by a single Bellman operator application exhibits regularity, for which Backward Stochastic Differential Equations (BSDEs) theory provides analytical tools, the uniform regularity of the entire sequence of value iteration iterates–specifically, their uniform Lipschitz continuity on compact domains under standard Lipschitz assumptions on the problem data–is derived from finite-horizon dynamic programming principles. We demonstrate that layers of a deep residual network, conceived as neural operators acting on function spaces, can approximate the action of the Bellman operator. The resulting approximation theorem is thus intrinsically linked to the control problem’s structure, offering a proof technique wherein network depth directly corresponds to iterations of value function refinement, accompanied by controlled error propagation. This perspective reveals a dynamic systems view of the network’s operation on a space of value functions.

arxiv情報

著者 Qian Qi
発行日 2025-05-09 13:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Universal Approximation Theorem for Deep Q-Learning via FBSDE System はコメントを受け付けていません

PYRREGULAR: A Unified Framework for Irregular Time Series, with Classification Benchmarks

要約

さまざまな記録頻度、異なる観測期間、および欠損値を特徴とする不規則な時間データは、モビリティ、ヘルスケア、環境科学などの分野で重要な課題を提示します。
既存の研究コミュニティは、多くの場合、これらの課題を単独で見落としたり、対処したりして、断片化されたツールと方法につながります。
このギャップを埋めるために、統一されたフレームワークと、不規則な時系列分類のための最初の標準化されたデータセットリポジトリを紹介します。
このリポジトリは、多様なドメインとコミュニティからの12の分類モデルをベンチマークする34のデータセットで構成されています。
この作業は、研究努力を集中化し、不規則な時間的データ分析方法のより堅牢な評価を可能にすることを目的としています。

要約(オリジナル)

Irregular temporal data, characterized by varying recording frequencies, differing observation durations, and missing values, presents significant challenges across fields like mobility, healthcare, and environmental science. Existing research communities often overlook or address these challenges in isolation, leading to fragmented tools and methods. To bridge this gap, we introduce a unified framework, and the first standardized dataset repository for irregular time series classification, built on a common array format to enhance interoperability. This repository comprises 34 datasets on which we benchmark 12 classifier models from diverse domains and communities. This work aims to centralize research efforts and enable a more robust evaluation of irregular temporal data analysis methods.

arxiv情報

著者 Francesco Spinnato,Cristiano Landi
発行日 2025-05-09 13:43:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PYRREGULAR: A Unified Framework for Irregular Time Series, with Classification Benchmarks はコメントを受け付けていません

Seqret: Mining Rule Sets from Event Sequences

要約

イベントシーケンスの要約は、データマイニングの重要な側面です。
ほとんどの既存の方法は、条件付き依存関係を無視し、シーケンシャルパターンのみを発見することに焦点を当てています。
この論文では、イベントシーケンスデータから条件付きおよび無条件の両方の依存関係を発見する問題を検討します。
フォーム$ x \ rightArrow y $のルールを発見することにより、$ x $と$ y $がシーケンシャルパターンです。
このようなルールは、前件と結果としての関係の明確な説明を理解するのが簡単であり、提供されます。
簡潔で非冗長なルールのセットを発見するために、最小説明長の原則の観点から問題を形式化します。
検索スペースは膨大であり、有用な構造を示していないため、実際に高品質のルールセットを発見するためのseqretメソッドを提案します。
広範な経験的評価を通じて、最新技術とは異なり、合成データセットでグラウンドトゥルースをうまく回復し、実際のデータセットから有用なルールを見つけることを示しています。

要約(オリジナル)

Summarizing event sequences is a key aspect of data mining. Most existing methods neglect conditional dependencies and focus on discovering sequential patterns only. In this paper, we study the problem of discovering both conditional and unconditional dependencies from event sequence data. We do so by discovering rules of the form $X \rightarrow Y$ where $X$ and $Y$ are sequential patterns. Rules like these are simple to understand and provide a clear description of the relation between the antecedent and the consequent. To discover succinct and non-redundant sets of rules we formalize the problem in terms of the Minimum Description Length principle. As the search space is enormous and does not exhibit helpful structure, we propose the Seqret method to discover high-quality rule sets in practice. Through extensive empirical evaluation we show that unlike the state of the art, Seqret ably recovers the ground truth on synthetic datasets and finds useful rules from real datasets.

arxiv情報

著者 Aleena Siji,Joscha Cüppers,Osman Ali Mian,Jilles Vreeken
発行日 2025-05-09 13:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Seqret: Mining Rule Sets from Event Sequences はコメントを受け付けていません

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

要約

大規模な言語モデル(LLM)が単なるテキストではなく、人間をどれだけ理解しているかを評価することは、未解決の課題のままです。
ギャップを埋めるために、LLMの高次の社会的認知を測定する自動評価フレームワークである裁判官(SAGE)としての感覚エージェントを紹介します。
Sageは、相互作用中に人間のような感情的変化と内なる思考をシミュレートする感覚エージェントを具体化し、マルチターン会話でテストされたモデルのより現実的な評価を提供します。
すべてのターンで、エージェントは(i)感情がどのように変化するか、(ii)どのように感じるか、(iii)それがどのように応答するかについての理由を推論します。
100の支持者向けシナリオでの実験は、最終的な感情的な感情スコアが、バレットレナード関係インベントリ(BLRI)の評価と発話レベルの共感指標と強く相関していることを示しています。
また、フロンティアシステム(GPT-4o-Latest、Gemini2.5-Pro)と以前のベースライン間のかなりのギャップ(最大4倍)を明らかにする18の商用およびオープンソースモデルをカバーする公開されたリーダーボードを構築します。
したがって、セージは、真に共感的で社会的に熟達した言語エージェントに向けて進歩を追跡するための原則的でスケーラブルで解釈可能なツールを提供します。

要約(オリジナル)

Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM’s higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.

arxiv情報

著者 Bang Zhang,Ruotian Ma,Qingxuan Jiang,Peisong Wang,Jiaqi Chen,Zheng Xie,Xingyu Chen,Yue Wang,Fanghua Ye,Jian Li,Yifan Yang,Zhaopeng Tu,Xiaolong Li
発行日 2025-05-09 13:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models はコメントを受け付けていません

An Invitation to Deep Reinforcement Learning

要約

ターゲット目標を最大化するために深いニューラルネットワークをトレーニングすることは、過去10年間で機械学習を成功させるための標準的なレシピになりました。
これらのネットワークは、ターゲット目標が微分可能な場合、監視された学習で最適化できます。
多くの興味深い問題については、そうではありません。
ユニオン(IOU)の交差点、バイリンガル評価アンダースタディ(BLE)スコア、または報酬などの一般的な目的は、監視された学習で最適化できません。
一般的な回避策は、微分可能なサロゲート損失を定義し、実際の目的に関して最適ではないソリューションにつながることです。
Rehnection Learning(RL)は、近年、ディフェーリング不可能な目標を最大化するために、深いニューラルネットワークを最適化するための有望な代替手段として浮上しています。
例には、人間のフィードバックを介して大規模な言語モデルを調整すること、コード生成、オブジェクト検出、または制御の問題が含まれます。
これにより、RLテクニックは、より大きな機械学習オーディエンスに関連するものになります。
ただし、この対象は、幅広い方法としばしば非常に理論的なプレゼンテーションのために、アプローチするのに時間がかかります。
この紹介では、古典的な強化学習教科書とは異なる別のアプローチを取ります。
表形式の問題に焦点を当てるのではなく、補強学習を監視された学習の一般化として紹介します。これは、最初に非分化不可能な目的に適用され、その後の時間的問題に適用されます。
監視された学習の基本的な知識のみを仮定すると、読者はこのチュートリアルを読んだ後、近位政策最適化(PPO)などの最先端のディープRLアルゴリズムを理解することができます。

要約(オリジナル)

Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is however not the case. Common objectives like intersection over union (IoU), bilingual evaluation understudy (BLEU) score or rewards cannot be optimized with supervised learning. A common workaround is to define differentiable surrogate losses, leading to suboptimal solutions with respect to the actual objective. Reinforcement learning (RL) has emerged as a promising alternative for optimizing deep neural networks to maximize non-differentiable objectives in recent years. Examples include aligning large language models via human feedback, code generation, object detection or control problems. This makes RL techniques relevant to the larger machine learning audience. The subject is, however, time intensive to approach due to the large range of methods, as well as the often very theoretical presentation. In this introduction, we take an alternative approach, different from classic reinforcement learning textbooks. Rather than focusing on tabular problems, we introduce reinforcement learning as a generalization of supervised learning, which we first apply to non-differentiable objectives and later to temporal problems. Assuming only basic knowledge of supervised learning, the reader will be able to understand state-of-the-art deep RL algorithms like proximal policy optimization (PPO) after reading this tutorial.

arxiv情報

著者 Bernhard Jaeger,Andreas Geiger
発行日 2025-05-09 14:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | An Invitation to Deep Reinforcement Learning はコメントを受け付けていません