Unsupervised Evolutionary Cell Type Matching via Entropy-Minimized Optimal Transport

要約

種全体の細胞タイプ間の進化的対応を特定することは、比較ゲノミクスと進化生物学の根本的な課題です。
既存のアプローチは、多くの場合、参照ベースの一致のいずれかに依存しています。これは、1つの種を参照として指定することにより非対称性を課します。または、細胞型レベルでの計算の複雑さと不明瞭な生物学的解釈可能性を高める可能性があります。
ここでは、エントロピー正規化最適輸送(OT)を活用する監視なしの計算フレームワークであるOT-Meshを提示して、異種の細胞型のホモロジーを体系的に決定します。
私たちの方法は、Sinkhorn(Mesh)技術の最小化エントロピーを独自に統合して、OT計画を改良します。
これは、高い信号対雑音比(SNR)の遺伝子を選択して、最も有益な機能をキャプチャすることから始まります。そこからコストマトリックスは、細胞型重心のコサイン距離を使用して構築されます。
重要なことに、メッシュの手順はコストマトリックスを繰り返し洗練し、結果として得られる対応マトリックスのスパース性と解釈可能性を大幅に向上させる輸送計画につながります。
マウスとマカクの網膜双極細胞(BC)および網膜神経節細胞(RGC)に適用され、OT-Meshは既知の進化関係を正確に回復し、新しい対応を明らかにしました。
したがって、私たちのフレームワークは、進化細胞型マッピングのための原則的でスケーラブルで対称的で解釈可能な解決策を提供し、種全体の細胞の専門化と保全に関するより深い洞察を促進します。

要約(オリジナル)

Identifying evolutionary correspondences between cell types across species is a fundamental challenge in comparative genomics and evolutionary biology. Existing approaches often rely on either reference-based matching, which imposes asymmetry by designating one species as the reference, or projection-based matching, which may increase computational complexity and obscure biological interpretability at the cell-type level. Here, we present OT-MESH, an unsupervised computational framework leveraging entropy-regularized optimal transport (OT) to systematically determine cross-species cell type homologies. Our method uniquely integrates the Minimize Entropy of Sinkhorn (MESH) technique to refine the OT plan. It begins by selecting genes with high Signal-to-Noise Ratio (SNR) to capture the most informative features, from which a cost matrix is constructed using cosine distances between cell-type centroids. Importantly, the MESH procedure iteratively refines the cost matrix, leading to a transport plan with significantly enhanced sparsity and interpretability of the resulting correspondence matrices. Applied to retinal bipolar cells (BCs) and retinal ganglion cells (RGCs) from mouse and macaque, OT-MESH accurately recovers known evolutionary relationships and uncovers novel correspondences, one of which was independently validated experimentally. Thus, our framework offers a principled, scalable, symmetric, and interpretable solution for evolutionary cell type mapping, facilitating deeper insights into cellular specialization and conservation across species.

arxiv情報

著者 Mu Qiao
発行日 2025-05-30 16:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | Unsupervised Evolutionary Cell Type Matching via Entropy-Minimized Optimal Transport はコメントを受け付けていません

REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

要約

検証可能な報酬を伴う強化学習のための推論環境のライブラリであるReashing Gym(RG)を紹介します。
代数、算術、計算、認知、ジオメトリ、グラフ理論、論理、さまざまな一般的なゲームを含む複数のドメインにまたがる100を超えるデータジェネレーターと検証剤を提供します。
その主要な革新は、通常固定されているほとんどの以前の推論データセットとは異なり、調整可能な複雑さを備えた実質的に無限のトレーニングデータを生成する機能です。
この手続き上の生成アプローチにより、さまざまな難易度にわたって継続的な評価が可能になります。
私たちの実験結果は、推論モデルの評価学習と強化学習の両方においてRGの有効性を示しています。

要約(オリジナル)

We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.

arxiv情報

著者 Zafir Stojanovski,Oliver Stanley,Joe Sharratt,Richard Jones,Abdulhakeem Adefioye,Jean Kaddour,Andreas Köpf
発行日 2025-05-30 16:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards はコメントを受け付けていません

Defining Foundation Models for Computational Science: A Call for Clarity and Rigor

要約

自然言語処理とコンピュータービジョンにおける基礎モデルの広範な成功により、研究者は科学機械学習と計算科学に概念を拡大するようになりました。
ただし、このポジションペーパーでは、「基礎モデル」という用語は進化する概念であるため、普遍的に受け入れられている定義なしに計算科学への応用がますます使用され、潜在的に混乱を引き起こし、その正確な科学的意味を希釈すると主張しています。
この論文では、一般性、再利用性、およびスケーラビリティのコアバリューに基づいた、計算科学における基礎モデルの正式な定義を提案することにより、このギャップに対処します。
私たちは、そのようなモデルが示さなければならない一連の本質的で望ましい特性を明確にし、有限要素や有限のボリューム方法など、従来の基礎的方法と類似しています。
さらに、データ駆動型の有限要素法(DD-FEM)を紹介します。これは、古典的なFEMのモジュラー構造とデータ駆動型学習の表現力と融合するフレームワークです。
DD-FEMが、スケーラビリティ、適応性、物理学の一貫性など、計算科学の基礎モデルを実現する際に多くの重要な課題にどのように対処するかを示します。
従来の数値的手法を最新のAIパラダイムに橋渡しすることにより、この作業は、計算科学における将来の基礎モデルに向けて新しいアプローチを評価および開発するための厳密な基盤を提供します。

要約(オリジナル)

The widespread success of foundation models in natural language processing and computer vision has inspired researchers to extend the concept to scientific machine learning and computational science. However, this position paper argues that as the term ‘foundation model’ is an evolving concept, its application in computational science is increasingly used without a universally accepted definition, potentially creating confusion and diluting its precise scientific meaning. In this paper, we address this gap by proposing a formal definition of foundation models in computational science, grounded in the core values of generality, reusability, and scalability. We articulate a set of essential and desirable characteristics that such models must exhibit, drawing parallels with traditional foundational methods, like the finite element and finite volume methods. Furthermore, we introduce the Data-Driven Finite Element Method (DD-FEM), a framework that fuses the modular structure of classical FEM with the representational power of data-driven learning. We demonstrate how DD-FEM addresses many of the key challenges in realizing foundation models for computational science, including scalability, adaptability, and physics consistency. By bridging traditional numerical methods with modern AI paradigms, this work provides a rigorous foundation for evaluating and developing novel approaches toward future foundation models in computational science.

arxiv情報

著者 Youngsoo Choi,Siu Wun Cheung,Youngkyu Kim,Ping-Hsuan Tsai,Alejandro N. Diaz,Ivan Zanardi,Seung Whan Chung,Dylan Matthew Copeland,Coleman Kendrick,William Anderson,Traian Iliescu,Matthias Heinkenschloss
発行日 2025-05-30 16:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA | Defining Foundation Models for Computational Science: A Call for Clarity and Rigor はコメントを受け付けていません

Why is plausibility surprisingly problematic as an XAI criterion?

要約

説明可能な人工知能(XAI)は、AIが社会とハイステークスのドメインでますます影響を与えるため、AIの予測を理解しやすく、透明性があり、責任を負わせる問題に動機付けられています。
XAIの評価と最適化基準は、Xaiアルゴリズムのゲートキーパーであり、期待される目標を達成し、厳密な検査に耐える必要があります。
Xaiの科学的厳密さを改善するために、一般的なXai基準である妥当性の批判的な調査を実施します。
妥当性は、AIの説明が人間にどれだけ説得されるかを評価し、通常、特徴のローカリゼーションまたは特徴の相関のメトリックによって定量化されます。
私たちの調査は、説明可能性を測定するためにもっともらしいことが無効であることを示しており、人間の説明はXaiの基本真実ではありません。なぜなら、そうすることは説明を支える必要な仮定を無視するからです。
私たちの調査は、ユーザーを操作する誤解を招く説明の増加、AIシステムへのユーザーの信頼の悪化、人間の自律性を損なうこと、補完的な人間のタスクのパフォーマンスを達成できないこと、理解性を高める他の可能なアプローチを放棄することを含む、Xaiの基準として妥当性を使用することの結果をさらに明らかにしています。
測定の無効性と非倫理的な問題のため、このポジションペーパーは、Xaiアルゴリズムの評価と最適化の基準としての妥当性の使用を停止する必要があると主張しています。
また、補完的な人間のタスクのパフォーマンスを含む、ユーザーへの信頼性、理解性、および有用性においてXaiを改善するための新しい研究アプローチを描きます。

要約(オリジナル)

Explainable artificial intelligence (XAI) is motivated by the problem of making AI predictions understandable, transparent, and responsible, as AI becomes increasingly impactful in society and high-stakes domains. The evaluation and optimization criteria of XAI are gatekeepers for XAI algorithms to achieve their expected goals and should withstand rigorous inspection. To improve the scientific rigor of XAI, we conduct a critical examination of a common XAI criterion: plausibility. Plausibility assesses how convincing the AI explanation is to humans, and is usually quantified by metrics of feature localization or feature correlation. Our examination shows that plausibility is invalid to measure explainability, and human explanations are not the ground truth for XAI, because doing so ignores the necessary assumptions underpinning an explanation. Our examination further reveals the consequences of using plausibility as an XAI criterion, including increasing misleading explanations that manipulate users, deteriorating users’ trust in the AI system, undermining human autonomy, being unable to achieve complementary human-AI task performance, and abandoning other possible approaches of enhancing understandability. Due to the invalidity of measurements and the unethical issues, this position paper argues that the community should stop using plausibility as a criterion for the evaluation and optimization of XAI algorithms. We also delineate new research approaches to improve XAI in trustworthiness, understandability, and utility to users, including complementary human-AI task performance.

arxiv情報

著者 Weina Jin,Xiaoxiao Li,Ghassan Hamarneh
発行日 2025-05-30 16:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Why is plausibility surprisingly problematic as an XAI criterion? はコメントを受け付けていません

Supervised Quantum Machine Learning: A Future Outlook from Qubits to Enterprise Applications

要約

監視された量子機械学習(QML)は、量子リソースを使用してモデルトレーニングと推論をサポートすることを目指して、量子コンピューティングと古典的な機械学習の交差を表します。
このペーパーでは、ハイブリッド量子クラシックワークフローとともに、変分量子回路、量子ニューラルネットワーク、量子カーネル法などの方法に焦点を当てた、監視されたQMLの最近の開発をレビューします。
量子優位性の部分的な適応症を示す最近の実験研究を検討し、ノイズ、不毛のプラトー、スケーラビリティの問題、および古典的な方法に対するパフォーマンス改善の正式な証明の欠如などの現在の制限を説明します。
主な貢献は、今後10年間でQMLが応用研究およびエンタープライズシステムで使用される可能性のある条件を説明するロードマップを含む、監督されたQMLの可能な開発を概説する10年の見通し(2025-2035)です。

要約(オリジナル)

Supervised Quantum Machine Learning (QML) represents an intersection of quantum computing and classical machine learning, aiming to use quantum resources to support model training and inference. This paper reviews recent developments in supervised QML, focusing on methods such as variational quantum circuits, quantum neural networks, and quantum kernel methods, along with hybrid quantum-classical workflows. We examine recent experimental studies that show partial indications of quantum advantage and describe current limitations including noise, barren plateaus, scalability issues, and the lack of formal proofs of performance improvement over classical methods. The main contribution is a ten-year outlook (2025-2035) that outlines possible developments in supervised QML, including a roadmap describing conditions under which QML may be used in applied research and enterprise systems over the next decade.

arxiv情報

著者 Srikanth Thudumu,Jason Fisher,Hung Du
発行日 2025-05-30 16:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, quant-ph | Supervised Quantum Machine Learning: A Future Outlook from Qubits to Enterprise Applications はコメントを受け付けていません

A survey of using EHR as real-world evidence for discovering and validating new drug indications

要約

電子健康記録(EHR)は、新薬の適応の発見と検証をサポートするために、実世界の証拠(RWE)としてますます使用されています。
このペーパーでは、データソース、処理方法、および表現技術をカバーするEHRベースの薬物再利用に対する現在のアプローチを調査します。
薬物の有効性を評価するための研究デザインと統計的枠組みについて説明します。
検証における重要な課題については、大規模な言語モデル(LLM)とターゲットトライアルエミュレーションの役割に重点を置いて議論されています。
最近の開発と方法論的進歩を統合することにより、この研究は、実世界のデータを実用的な薬物補償の証拠に翻訳することを目的とした研究者に基本的なリソースを提供します。

要約(オリジナル)

Electronic Health Records (EHRs) have been increasingly used as real-world evidence (RWE) to support the discovery and validation of new drug indications. This paper surveys current approaches to EHR-based drug repurposing, covering data sources, processing methodologies, and representation techniques. It discusses study designs and statistical frameworks for evaluating drug efficacy. Key challenges in validation are discussed, with emphasis on the role of large language models (LLMs) and target trial emulation. By synthesizing recent developments and methodological advances, this work provides a foundational resource for researchers aiming to translate real-world data into actionable drug-repurposing evidence.

arxiv情報

著者 Nabasmita Talukdar,Xiaodan Zhang,Shreya Paithankar,Hui Wang,Bin Chen
発行日 2025-05-30 16:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.AP | A survey of using EHR as real-world evidence for discovering and validating new drug indications はコメントを受け付けていません

In Dialogue with Intelligence: Rethinking Large Language Models as Collective Knowledge

要約

大規模な言語モデル(LLM)は、通常、建築、行動、またはトレーニングデータレンズを通じて分析されます。
この記事では、理論的および体験的な再編成:LLMSは、集合的な人間の知識(CK)の動的なインスタンス化としてのLLMを提供します。
NeuroscienceとAIの概念を利用し、ChatGPT-4との持続的な相互作用に基づいて、私は緊急の対話パターン、微調整の意味、および共等分の概念:人間と機械の認知の相互強化を調べます。
この視点は、現代のAIシステムの相互作用、表現、および代理店を理解するための新しいレンズを提供します。

要約(オリジナル)

Large Language Models (LLMs) are typically analysed through architectural, behavioural, or training-data lenses. This article offers a theoretical and experiential re-framing: LLMs as dynamic instantiations of Collective human Knowledge (CK), where intelligence is evoked through dialogue rather than stored statically. Drawing on concepts from neuroscience and AI, and grounded in sustained interaction with ChatGPT-4, I examine emergent dialogue patterns, the implications of fine-tuning, and the notion of co-augmentation: mutual enhancement between human and machine cognition. This perspective offers a new lens for understanding interaction, representation, and agency in contemporary AI systems.

arxiv情報

著者 Eleni Vasilaki
発行日 2025-05-30 16:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | In Dialogue with Intelligence: Rethinking Large Language Models as Collective Knowledge はコメントを受け付けていません

HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks

要約

推論時間スケーリングは、OpenAI O1やDeepSeek R1などの最近のモデルの成功にとって重要でした。
ただし、推論時間スケーリングのためにモデルをトレーニングするために使用される多くの手法では、検証できる回答が必要なタスクが必要であり、そのアプリケーションが数学、コーディング、論理的推論などのドメインに制限されます。
私たちは、人間が最初の試みを行う方法からインスピレーションを得て、他の人からの詳細なフィードバックを求め、幅広いオープンエンドの取り組みに基づいてそのようなフィードバックに基づいて改善を行います。
この目的のために、HELPSTEER3データを収集して、オープンエンドの一般ドメインタスクの推論時間スケーリングを実行できる専用のフィードバックをトレーニングし、編集モデルを編集します。
セットアップでは、1つのモデルが最初の応答を生成します。これは、2番目のモデルによってフィードバックが与えられ、3番目のモデルで使用されて応答を編集します。
Arena Hardのパフォーマンスは、Chatbot Arena ELOを強く予測するベンチマークであることを示しています。初期応答ドラフトの数、効果的なフィードバック、編集された応答をスケーリングすることでブーストできることを示しています。
最適にスケーリングされると、Llama 3ファミリーの70Bモデルに基づいたセットアップは、2025年3月5日現在、92.7でArenaでSOTAパフォーマンスに到達し、90.4でOpenai O1-Preview-2024-09-12を上回り、92.3でDeepseek R1を上回ります。

要約(オリジナル)

Inference-Time Scaling has been critical to the success of recent models such as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for inference-time scaling require tasks to have answers that can be verified, limiting their application to domains such as math, coding and logical reasoning. We take inspiration from how humans make first attempts, ask for detailed feedback from others and make improvements based on such feedback across a wide spectrum of open-ended endeavors. To this end, we collect HelpSteer3 data to train dedicated Feedback and Edit Models that are capable of performing inference-time scaling for open-ended general-domain tasks. In our setup, one model generates an initial response, which are given feedback by a second model, that are then used by a third model to edit the response. We show that performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo can be boosted by scaling the number of initial response drafts, effective feedback and edited responses. When scaled optimally, our setup based on 70B models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7 as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and DeepSeek R1 with 92.3.

arxiv情報

著者 Zhilin Wang,Jiaqi Zeng,Olivier Delalleau,Daniel Egert,Ellie Evans,Hoo-Chang Shin,Felipe Soares,Yi Dong,Oleksii Kuchaiev
発行日 2025-05-30 16:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks はコメントを受け付けていません

LoBAM: LoRA-Based Backdoor Attack on Model Merging

要約

モデルのマージは、異なるタスクで微調整された複数のモデルを統合して、複数のドメインに優れた汎用性の高いモデルを作成する新たな手法です。
その間、このスキームは、1つの悪意のあるモデルがマージモデルの完全性を危険にさらすことができるバックドア攻撃の機会を開く可能性があります。
既存の作品は、攻撃者が事前に訓練されたモデルを完全に微調整できる場合に焦点を当てて、実質的な計算リソースを想定することにより、このような攻撃のリスクを実証しようとします。
ただし、このような仮定は、機械学習モデルのサイズが増加することを考えると、実現可能ではない場合があります。
リソースが限られており、攻撃者が悪意のあるモデルを作成するために低ランク適応(LORA)などのテクニックのみを使用できる実際には、攻撃がまだ機能し、脅威をもたらすことができるかどうかは不明のままです。
この作業では、微調整にLORAを使用すると攻撃効果が大幅に減少することを最初に特定します。
次に、トレーニングリソースを最小限に抑えて高い攻撃成功率をもたらす方法であるLobamを提案します。
ロバムの重要なアイデアは、攻撃効果を効果的に向上させるインテリジェントな方法で悪意のある重みを増幅することです。
私たちの設計は、さまざまなモデルのマージシナリオにわたる広範な経験的実験を通じて攻撃成功率の改善につながる可能性があることを実証します。
さらに、私たちの方法は非常にステルスであり、検出して防御することが困難であることを示しています。

要約(オリジナル)

Model merging is an emerging technique that integrates multiple models fine-tuned on different tasks to create a versatile model that excels in multiple domains. This scheme, in the meantime, may open up backdoor attack opportunities where one single malicious model can jeopardize the integrity of the merged model. Existing works try to demonstrate the risk of such attacks by assuming substantial computational resources, focusing on cases where the attacker can fully fine-tune the pre-trained model. Such an assumption, however, may not be feasible given the increasing size of machine learning models. In practice where resources are limited and the attacker can only employ techniques like Low-Rank Adaptation (LoRA) to produce the malicious model, it remains unclear whether the attack can still work and pose threats. In this work, we first identify that the attack efficacy is significantly diminished when using LoRA for fine-tuning. Then, we propose LoBAM, a method that yields high attack success rate with minimal training resources. The key idea of LoBAM is to amplify the malicious weights in an intelligent way that effectively enhances the attack efficacy. We demonstrate that our design can lead to improved attack success rate through extensive empirical experiments across various model merging scenarios. Moreover, we show that our method is highly stealthy and is difficult to detect and defend against.

arxiv情報

著者 Ming Yin,Jingyang Zhang,Jingwei Sun,Minghong Fang,Hai Li,Yiran Chen
発行日 2025-05-30 16:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | LoBAM: LoRA-Based Backdoor Attack on Model Merging はコメントを受け付けていません

AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models

要約

現在の深い強化学習(DRL)アプローチは、さまざまなドメインで最先端のパフォーマンスを達成しますが、オブジェクトとその相互作用に関するコアプライアーを活用する人間の学習と比較してデータ効率と闘っています。
アクティブな推論は、世界モデルを学び、独自の信念と予測の不確実性を定量化するために、感覚情報を事前知識と統合するための原則的なフレームワークを提供します。
ただし、アクティブな推論モデルは通常、オーダーメイドの知識を持つ単一のタスクで作成されるため、DRLアプローチに典型的なドメインの柔軟性がありません。
このギャップを埋めるために、オブジェクト中心のダイナミクスと相互作用に関する最小限の表現力豊かなコアプライアーのセットを統合して、低データレジームの学習を加速する新しいアーキテクチャを提案します。
Axiomと呼ばれる結果のアプローチは、ベイジアンアプローチの通常のデータ効率と解釈可能性を、通常DRLに関連付けられているタスクの一般化を兼ね備えています。
公理は、オブジェクトの構成としてシーンを表します。オブジェクトの構成は、ダイナミクスがまばらなオブジェクトとオブジェクトの相互作用をキャプチャする区分的線形軌跡としてモデル化されています。
生成モデルの構造は、単一のイベントから混合モデルを栽培および学習することにより、オンラインで拡張され、ベイジアンモデルの削減を通じて定期的に洗練されて一般化を誘導します。
Axiomは、DRLと比較して少数のパラメーターを使用して、勾配ベースの最適化の計算費用なしで、わずか10,000のインタラクションステップでさまざまなゲームをマスターします。

要約(オリジナル)

Current deep reinforcement learning (DRL) approaches achieve state-of-the-art performance in various domains, but struggle with data efficiency compared to human learning, which leverages core priors about objects and their interactions. Active inference offers a principled framework for integrating sensory information with prior knowledge to learn a world model and quantify the uncertainty of its own beliefs and predictions. However, active inference models are usually crafted for a single task with bespoke knowledge, so they lack the domain flexibility typical of DRL approaches. To bridge this gap, we propose a novel architecture that integrates a minimal yet expressive set of core priors about object-centric dynamics and interactions to accelerate learning in low-data regimes. The resulting approach, which we call AXIOM, combines the usual data efficiency and interpretability of Bayesian approaches with the across-task generalization usually associated with DRL. AXIOM represents scenes as compositions of objects, whose dynamics are modeled as piecewise linear trajectories that capture sparse object-object interactions. The structure of the generative model is expanded online by growing and learning mixture models from single events and periodically refined through Bayesian model reduction to induce generalization. AXIOM masters various games within only 10,000 interaction steps, with both a small number of parameters compared to DRL, and without the computational expense of gradient-based optimization.

arxiv情報

著者 Conor Heins,Toon Van de Maele,Alexander Tschantz,Hampus Linander,Dimitrije Markovic,Tommaso Salvatori,Corrado Pezzato,Ozan Catal,Ran Wei,Magnus Koudahl,Marco Perin,Karl Friston,Tim Verbelen,Christopher Buckley
発行日 2025-05-30 16:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models はコメントを受け付けていません