Learning Heterogeneous Performance-Fairness Trade-offs in Federated Learning

要約

最近の方法は、ハイパーネットを活用して、連邦学習におけるパフォーマンスフェアネスのトレードオフを処理します。
このハイパーネットは、モデルのパフォーマンスと公平性との間のクライアントの好みを、ローカルパレートフロントとして知られるトレードオフ曲線上の優先順位付けモデルからマップします。
ただし、既存の方法は通常、クライアント間でハイパーネットをトレーニングするために均一な好みのサンプリング分布を採用し、ローカルパレートの前線の固有の不均一性を無視します。
一方、一般化の観点からは、グローバルデータセットのローカルパレート戦線とグローバルなパレートの間のギャップを考慮していません。
これらの制限に対処するために、HETPFLにローカルパレートとグローバルの両方のパレートの両方を効果的に学習することを提案します。
HETPFLは、優先サンプリング適応(PSA)と優先順位の高いハイパーネット融合(PHF)で構成されています。
PSAは、各クライアントが不均一なローカルパレートフロントに対応するために、各クライアントの最適な選好サンプリング分布を適応的に決定します。
PHFは、クライアントのハイパーネットの優先認識融合を実行して、グローバルなパレートフロントのパフォーマンスを確保します。
HETPFLは、既存の方法よりも弱い仮定の下で、ラウンド数に関して直線的に収束することを証明します。
4つのデータセットでの広範な実験は、HETPFLが、学習したローカルおよびグローバルなパレートの面の品質に関して7つのベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Recent methods leverage a hypernet to handle the performance-fairness trade-offs in federated learning. This hypernet maps the clients’ preferences between model performance and fairness to preference-specifc models on the trade-off curve, known as local Pareto front. However, existing methods typically adopt a uniform preference sampling distribution to train the hypernet across clients, neglecting the inherent heterogeneity of their local Pareto fronts. Meanwhile, from the perspective of generalization, they do not consider the gap between local and global Pareto fronts on the global dataset. To address these limitations, we propose HetPFL to effectively learn both local and global Pareto fronts. HetPFL comprises Preference Sampling Adaptation (PSA) and Preference-aware Hypernet Fusion (PHF). PSA adaptively determines the optimal preference sampling distribution for each client to accommodate heterogeneous local Pareto fronts. While PHF performs preference-aware fusion of clients’ hypernets to ensure the performance of the global Pareto front. We prove that HetPFL converges linearly with respect to the number of rounds, under weaker assumptions than existing methods. Extensive experiments on four datasets show that HetPFL significantly outperforms seven baselines in terms of the quality of learned local and global Pareto fronts.

arxiv情報

著者 Rongguang Ye,Ming Tang
発行日 2025-04-30 16:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Learning Heterogeneous Performance-Fairness Trade-offs in Federated Learning はコメントを受け付けていません

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

要約

Openai-O1やDeepSeek-R1などの大きな推論モデル(LRMS)は、印象的な長期推論能力を示しています。
ただし、静的な内部知識への依存は、複雑で知識集約的なタスクでのパフォーマンスを制限し、多様なWeb情報の統合を必要とする包括的な研究レポートを作成する能力を妨げます。
これに対処するために、\ textbf {webthinker}を提案します。これは、推論プロセス中にWebを自律的に検索し、Webページをナビゲートし、研究レポートをドラフトするためのLRMSを強化する深い研究エージェントです。
WebThinkerは、\ textBF {Deep Web Explorer}モジュールを統合し、LRMSが知識のギャップに遭遇したときにWebから動的に検索、ナビゲート、抽出できるようにします。
また、\ textBf {自動的な思考とドラフト戦略}を採用しており、モデルが推論、情報収集、および執筆をリアルタイムでシームレスにインターリーブすることを可能にします。
研究ツールの利用をさらに強化するために、Iterative Online Direct Preference Optimulation(DPO)を介して\ TextBF {RLベースのトレーニング戦略}を紹介します。
複雑な推論ベンチマーク(GPQA、GAIA、WebWalkerQA、HLE)および科学レポート生成タスク(Glaive)に関する広範な実験は、WebThinkerが既存の方法と強力な独自のシステムを大幅に上回ることを示しています。
私たちのアプローチは、複雑なシナリオでのLRMの信頼性と適用性を高め、より能力が高く汎用性の高い深い研究システムへの道を開いています。
このコードは、https://github.com/ruc-nlpir/webthinkerで入手できます。

要約(オリジナル)

Large reasoning models (LRMs), such as OpenAI-o1 and DeepSeek-R1, demonstrate impressive long-horizon reasoning capabilities. However, their reliance on static internal knowledge limits their performance on complex, knowledge-intensive tasks and hinders their ability to produce comprehensive research reports requiring synthesis of diverse web information. To address this, we propose \textbf{WebThinker}, a deep research agent that empowers LRMs to autonomously search the web, navigate web pages, and draft research reports during the reasoning process. WebThinker integrates a \textbf{Deep Web Explorer} module, enabling LRMs to dynamically search, navigate, and extract information from the web when encountering knowledge gaps. It also employs an \textbf{Autonomous Think-Search-and-Draft strategy}, allowing the model to seamlessly interleave reasoning, information gathering, and report writing in real time. To further enhance research tool utilization, we introduce an \textbf{RL-based training strategy} via iterative online Direct Preference Optimization (DPO). Extensive experiments on complex reasoning benchmarks (GPQA, GAIA, WebWalkerQA, HLE) and scientific report generation tasks (Glaive) demonstrate that WebThinker significantly outperforms existing methods and strong proprietary systems. Our approach enhances LRM reliability and applicability in complex scenarios, paving the way for more capable and versatile deep research systems. The code is available at https://github.com/RUC-NLPIR/WebThinker.

arxiv情報

著者 Xiaoxi Li,Jiajie Jin,Guanting Dong,Hongjin Qian,Yutao Zhu,Yongkang Wu,Ji-Rong Wen,Zhicheng Dou
発行日 2025-04-30 16:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | WebThinker: Empowering Large Reasoning Models with Deep Research Capability はコメントを受け付けていません

Variational Offline Multi-agent Skill Discovery

要約

スキルは、順次意思決定のために確立された効果的な時間的抽象化であり、長期式タスクの効率的な階層学習を可能にし、移転性を通じてマルチタスク学習を促進します。
広範な研究にもかかわらず、特にマルチエージェントタスクでサブグループの調整パターンを自動的に抽出するために、研究ギャップはマルチエージェントシナリオに残っています。
この場合、2つの新しい自動エンコーダースキームを提案します:VO-MASD-3DとVO-MASD-HIERは、同時にサブグループおよび時間レベルの抽象化をキャプチャし、最初に前述の課題を解決するマルチエージェントスキルを形成します。
これらのスキームの重要なアルゴリズムコンポーネントは、タスク内のエージェント相互作用に基づいて潜在的なサブグループを自動的に検出できる動的グループ化関数です。
さらに、当社の方法はオフラインのマルチタスクデータに適用でき、検出されたサブグループスキルは、再訓練なしで関連するタスクを越えて転送できます。
StarCraftタスクの経験的評価は、私たちのアプローチが既存の階層的マルチエージェント補強学習(MARL)方法を大幅に上回ることを示しています。
さらに、私たちの方法を使用して発見されたスキルは、遅延とまばらな報酬信号でMARLシナリオの学習難易度を効果的に減らすことができます。
コードベースはhttps://github.com/lucascjysdl/vomasdで入手できます。

要約(オリジナル)

Skills are effective temporal abstractions established for sequential decision making, which enable efficient hierarchical learning for long-horizon tasks and facilitate multi-task learning through their transferability. Despite extensive research, research gaps remain in multi-agent scenarios, particularly for automatically extracting subgroup coordination patterns in a multi-agent task. In this case, we propose two novel auto-encoder schemes: VO-MASD-3D and VO-MASD-Hier, to simultaneously capture subgroup- and temporal-level abstractions and form multi-agent skills, which firstly solves the aforementioned challenge. An essential algorithm component of these schemes is a dynamic grouping function that can automatically detect latent subgroups based on agent interactions in a task. Further, our method can be applied to offline multi-task data, and the discovered subgroup skills can be transferred across relevant tasks without retraining. Empirical evaluations on StarCraft tasks indicate that our approach significantly outperforms existing hierarchical multi-agent reinforcement learning (MARL) methods. Moreover, skills discovered using our method can effectively reduce the learning difficulty in MARL scenarios with delayed and sparse reward signals. The codebase is available at https://github.com/LucasCJYSDL/VOMASD.

arxiv情報

著者 Jiayu Chen,Tian Lan,Vaneet Aggarwal
発行日 2025-04-30 16:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Variational Offline Multi-agent Skill Discovery はコメントを受け付けていません

Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers

要約

幻覚は、大規模な言語モデル(LLMS)の持続的な問題です。
これらのモデルがヘルスケアやファイナンスなどのハイステークスドメインでますます使用されるようになるにつれて、効果的な幻覚検出の必要性が非常に重要です。
この目的のために、実務家が実際のユースケースに適用できるゼロリソースの幻覚検出のための多目的なフレームワークを提案します。
これを達成するために、ブラックボックスUQ、ホワイトボックスUQ、およびLLM-a-a-judgeなどのさまざまな既存の不確実性定量化(UQ)手法を適応させ、必要に応じて0から1の範囲の標準化された応答レベルの信頼スコアに変換します。
このアプローチにより、実務家は、パフォーマンスを改善するために特定のユースケースのアンサンブルを最適化できます。
実装を合理化するために、このペーパーのコンパニオンPython Toolkit、UQLMで得点者の完全なスイートが提供されています。
さまざまな得点者のパフォーマンスを評価するために、いくつかのLLMの質問アンウェーベンチマークを使用して、広範な実験セットを実施します。
調整可能なアンサンブルは通常、個々のコンポーネントを上回り、既存の幻覚検出方法を上回ることがわかります。
私たちの結果は、LLMの精度と信頼性を改善するためのカスタマイズされた幻覚検出戦略の利点を示しています。

要約(オリジナル)

Hallucinations are a persistent problem with Large Language Models (LLMs). As these models become increasingly used in high-stakes domains, such as healthcare and finance, the need for effective hallucination detection is crucial. To this end, we propose a versatile framework for zero-resource hallucination detection that practitioners can apply to real-world use cases. To achieve this, we adapt a variety of existing uncertainty quantification (UQ) techniques, including black-box UQ, white-box UQ, and LLM-as-a-Judge, transforming them as necessary into standardized response-level confidence scores ranging from 0 to 1. To enhance flexibility, we introduce a tunable ensemble approach that incorporates any combination of the individual confidence scores. This approach enables practitioners to optimize the ensemble for a specific use case for improved performance. To streamline implementation, the full suite of scorers is offered in this paper’s companion Python toolkit, UQLM. To evaluate the performance of the various scorers, we conduct an extensive set of experiments using several LLM question-answering benchmarks. We find that our tunable ensemble typically surpasses its individual components and outperforms existing hallucination detection methods. Our results demonstrate the benefits of customized hallucination detection strategies for improving the accuracy and reliability of LLMs.

arxiv情報

著者 Dylan Bouchard,Mohit Singh Chauhan
発行日 2025-04-30 16:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers はコメントを受け付けていません

SWE-smith: Scaling Data for Software Engineering Agents

要約

ソフトウェアエンジニアリングの言語モデル(LMS)の最近の進歩にもかかわらず、トレーニングデータを収集することは依然として重要な問題です。
既存のデータセットは小さく、11以下のGitHubリポジトリから最大1,000のトレーニングインスタンスがあります。
このようなデータセットをキュレートする手順はしばしば複雑であり、数百時間の人間の労働を必要とします。
コンパニオンの実行環境も、スケーラビリティと使いやすさを厳しく制限し、数テラバイトのストレージを取り上げます。
この問題点に対処するために、SWE-SMITHを紹介します。SWE-Smithは、大規模にソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインを紹介します。
Pythonコードベースを考慮して、SWE-SMITHは対応する実行環境を構築し、コードベースの既存のテストを破る100〜1,000のタスクインスタンスを自動的に合成します。
SWE-SMITHを使用して、128のGitHubリポジトリから供給された50Kインスタンスのデータセットを作成します。
SWE-Agent-LM-32Bをトレーニングし、SWEベンチ検証ベンチマークで40.2%パス@1解決レートを達成しました。これは、オープンソースモデルの最先端です。
自動ソフトウェアエンジニアリングのためのLMシステムでの研究の障壁を下げるために、SWE-SWESMITH(収集手順、タスクインスタンス、軌跡、モデル)をオープンします。
https://swesmith.comで利用可能なすべての資産。

要約(オリジナル)

Despite recent progress in Language Models (LMs) for software engineering, collecting training data remains a significant pain point. Existing datasets are small, with at most 1,000s of training instances from 11 or fewer GitHub repositories. The procedures to curate such datasets are often complex, necessitating hundreds of hours of human labor; companion execution environments also take up several terabytes of storage, severely limiting their scalability and usability. To address this pain point, we introduce SWE-smith, a novel pipeline for generating software engineering training data at scale. Given any Python codebase, SWE-smith constructs a corresponding execution environment, then automatically synthesizes 100s to 1,000s of task instances that break existing test(s) in the codebase. Using SWE-smith, we create a dataset of 50k instances sourced from 128 GitHub repositories, an order of magnitude larger than all previous works. We train SWE-agent-LM-32B, achieving 40.2% Pass@1 resolve rate on the SWE-bench Verified benchmark, state of the art among open source models. We open source SWE-smith (collection procedure, task instances, trajectories, models) to lower the barrier of entry for research in LM systems for automated software engineering. All assets available at https://swesmith.com.

arxiv情報

著者 John Yang,Kilian Leret,Carlos E. Jimenez,Alexander Wettig,Kabir Khandpur,Yanzhe Zhang,Binyuan Hui,Ofir Press,Ludwig Schmidt,Diyi Yang
発行日 2025-04-30 16:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | SWE-smith: Scaling Data for Software Engineering Agents はコメントを受け付けていません

How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues

要約

ヘルスケアにおける合成データの採用の増大は、プライバシーの懸念、現実世界のデータへの限られたアクセス、および注釈の高いコストによって推進されています。
この研究では、臨床モデルのトレーニングと評価のためのスケーラブルな代替品として、心的外傷後ストレス障害(PTSD)の合成延長曝露(PE)治療的会話の使用を調査します。
ターンテイキングパターンや治療の忠実度を含む、言語、構造、およびプロトコル固有のメトリックを使用して、実際の対話と合成の対話を体系的に比較します。
また、言語分析とセマンティックモデリングに由来するPE固有のメトリックを導入および評価し、表面流fluさを超えた臨床的忠実度を評価するための新しいフレームワークを提供します。
私たちの調査結果は、合成データがデータの希少性を緩和し、患者のプライバシーを保護することを約束しているが、治療的相互作用の微妙なダイナミクスを捉えるのに苦労する可能性があることを示しています。
データセットでは、合成ダイアログでは、実際のダイアログの構造的特徴(例:スピーカースイッチ比:0.98対0.99)と一致しますが、合成相互作用は重要な忠実度マーカー(例えば、苦痛の監視)を適切に反映していません。
既存の評価フレームワークのギャップを強調し、臨床的に重要な障害を明らかにするために表面の流encyさを超えた忠実度を意識したメトリックを提唱します。
私たちの調査結果は、合成データが現実世界のデータセットを効果的に補完できる場所、そして重大な制限がどこにあるかを明確にします。

要約(オリジナル)

The growing adoption of synthetic data in healthcare is driven by privacy concerns, limited access to real-world data, and the high cost of annotation. This work explores the use of synthetic Prolonged Exposure (PE) therapeutic conversations for Post-Traumatic Stress Disorder (PTSD) as a scalable alternative for training and evaluating clinical models. We systematically compare real and synthetic dialogues using linguistic, structural, and protocol-specific metrics, including turn-taking patterns and treatment fidelity. We also introduce and evaluate PE-specific metrics derived from linguistic analysis and semantic modeling, offering a novel framework for assessing clinical fidelity beyond surface fluency. Our findings show that although synthetic data holds promise for mitigating data scarcity and protecting patient privacy, it can struggle to capture the subtle dynamics of therapeutic interactions. In our dataset, synthetic dialogues match structural features of real-world dialogues (e.g., speaker switch ratio: 0.98 vs. 0.99), however, synthetic interactions do not adequately reflect key fidelity markers (e.g., distress monitoring). We highlight gaps in existing evaluation frameworks and advocate for fidelity-aware metrics that go beyond surface fluency to uncover clinically significant failures. Our findings clarify where synthetic data can effectively complement real-world datasets — and where critical limitations remain.

arxiv情報

著者 Suhas BN,Dominik Mattioli,Saeed Abdullah,Rosa I. Arriaga,Chris W. Wiese,Andrew M. Sherrill
発行日 2025-04-30 16:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.CY, cs.HC, I.2.7 | How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues はコメントを受け付けていません

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

要約

Lean 4で証明する正式な定理用に設計されたオープンソースの大型言語モデルであるDeepSeek-Prover-V2を導入します。初期化データは、DeepSeek-V3を搭載した再帰定理証明パイプラインを通じて収集されます。
コールドスタートトレーニング手順は、DeepSeek-V3に複雑な問題を一連のサブゴールに分解するよう促すことから始まります。
解決されたサブゴールの証明は、補強学習のための最初のコールドスタートを作成するために、DeepSeek-V3の段階的な推論と組み合わせて、考え方のプロセスに合成されます。
このプロセスにより、非公式および正式な数学的推論の両方を統一モデルに統合することができます。
結果のモデルであるDeepSeek-Prover-V2-671Bは、神経定理が証明する最先端のパフォーマンスを実現し、MINIF2Fテストで88.9%のパス比に達し、Putnambenchの658の問題のうち49件を解きました。
標準のベンチマークに加えて、325の正式な問題のコレクションであるProverbenchを紹介し、最近のAIMEコンペティションから選択された15の問題を含む評価を充実させます(24〜25年)。
これらの15のAIME問題に関するさらなる評価は、モデルがそれらの6つを正常に解決することを示しています。
それに比べて、DeepSeek-V3は多数決を使用してこれらの問題の8つを解決し、大規模な言語モデルにおける正式な数学的推論と非公式の数学的推論のギャップが実質的に狭くなっていることを強調しています。

要約(オリジナル)

We introduce DeepSeek-Prover-V2, an open-source large language model designed for formal theorem proving in Lean 4, with initialization data collected through a recursive theorem proving pipeline powered by DeepSeek-V3. The cold-start training procedure begins by prompting DeepSeek-V3 to decompose complex problems into a series of subgoals. The proofs of resolved subgoals are synthesized into a chain-of-thought process, combined with DeepSeek-V3’s step-by-step reasoning, to create an initial cold start for reinforcement learning. This process enables us to integrate both informal and formal mathematical reasoning into a unified model. The resulting model, DeepSeek-Prover-V2-671B, achieves state-of-the-art performance in neural theorem proving, reaching 88.9% pass ratio on the MiniF2F-test and solving 49 out of 658 problems from PutnamBench. In addition to standard benchmarks, we introduce ProverBench, a collection of 325 formalized problems, to enrich our evaluation, including 15 selected problems from the recent AIME competitions (years 24-25). Further evaluation on these 15 AIME problems shows that the model successfully solves 6 of them. In comparison, DeepSeek-V3 solves 8 of these problems using majority voting, highlighting that the gap between formal and informal mathematical reasoning in large language models is substantially narrowing.

arxiv情報

著者 Z. Z. Ren,Zhihong Shao,Junxiao Song,Huajian Xin,Haocheng Wang,Wanjia Zhao,Liyue Zhang,Zhe Fu,Qihao Zhu,Dejian Yang,Z. F. Wu,Zhibin Gou,Shirong Ma,Hongxuan Tang,Yuxuan Liu,Wenjun Gao,Daya Guo,Chong Ruan
発行日 2025-04-30 16:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition はコメントを受け付けていません

Masked Generative Priors Improve World Models Sequence Modelling Capabilities

要約

Deep Rehnection Learning(RL)は、複雑な環境で人工剤を作成するための主要なアプローチとなっています。
環境のダイナミクスを予測する世界モデルを備えたRLメソッドであるモデルベースのアプローチは、データ効率を改善するための最も有望な方向の1つであり、研究と現実世界の展開のギャップを埋めるための重要なステップを形成します。
特に、世界モデルは、想像力で学習することによりサンプル効率を高めます。これには、環境の生成シーケンスモデルを自己監視する方法でトレーニングすることが含まれます。
最近、マスクされた生成モデリングは、トークンシーケンスのモデリングと生成のためのより効率的で優れた誘導バイアスとして浮上しています。
効率的な確率的変圧器ベースのワールドモデル(ストーム)アーキテクチャに基づいて、従来のMLP以前をマスクされた生成事前(例:MaskGit Priove)に置き換え、Git-Stormを導入します。
補強学習とビデオ予測という2つの下流タスクでモデルを評価します。
Git-Stormは、Atari 100KベンチマークのRLタスクでかなりのパフォーマンスの向上を示しています。
さらに、トランスベースの世界モデルを初めて継続的なアクション環境に適用し、以前の研究の大きなギャップに対処します。
これを達成するために、潜在的な状態表現をアクションと統合する状態ミキサー機能を採用し、モデルが連続制御タスクを処理できるようにします。
この新しいドメインにおけるトランスベースの世界モデルの有効性を紹介し、Deepmind Control Suiteの定性的および定量的分析を通じてこのアプローチを検証します。
私たちの結果は、より正確な世界モデルと効果的なRLポリシーへの道を開いて、MaskGitダイナミクスの汎用性と有効性を強調しています。

要約(オリジナル)

Deep Reinforcement Learning (RL) has become the leading approach for creating artificial agents in complex environments. Model-based approaches, which are RL methods with world models that predict environment dynamics, are among the most promising directions for improving data efficiency, forming a critical step toward bridging the gap between research and real-world deployment. In particular, world models enhance sample efficiency by learning in imagination, which involves training a generative sequence model of the environment in a self-supervised manner. Recently, Masked Generative Modelling has emerged as a more efficient and superior inductive bias for modelling and generating token sequences. Building on the Efficient Stochastic Transformer-based World Models (STORM) architecture, we replace the traditional MLP prior with a Masked Generative Prior (e.g., MaskGIT Prior) and introduce GIT-STORM. We evaluate our model on two downstream tasks: reinforcement learning and video prediction. GIT-STORM demonstrates substantial performance gains in RL tasks on the Atari 100k benchmark. Moreover, we apply Transformer-based World Models to continuous action environments for the first time, addressing a significant gap in prior research. To achieve this, we employ a state mixer function that integrates latent state representations with actions, enabling our model to handle continuous control tasks. We validate this approach through qualitative and quantitative analyses on the DeepMind Control Suite, showcasing the effectiveness of Transformer-based World Models in this new domain. Our results highlight the versatility and efficacy of the MaskGIT dynamics prior, paving the way for more accurate world models and effective RL policies.

arxiv情報

著者 Cristian Meo,Mircea Lica,Zarif Ikram,Akihiro Nakano,Vedant Shah,Aniket Rajiv Didolkar,Dianbo Liu,Anirudh Goyal,Justin Dauwels
発行日 2025-04-30 17:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Masked Generative Priors Improve World Models Sequence Modelling Capabilities はコメントを受け付けていません

A Library for Learning Neural Operators

要約

オペレーター学習用のオープンソースPythonライブラリであるNeuraloperatorを紹介します。
ニューラルオペレーターは、有限次元のユークリッド空間ではなく、機能空間間のマップにニューラルネットワークを一般化します。
それらは、さまざまな離散化で与えられた入力および出力関数で訓練および推測することができ、離散化収束特性を満たすことができます。
Pytorchの上に構築されたNeuraloperatorは、高品質のテスト済みのオープンソースパッケージで、ニューラルオペレーターモデルをトレーニングおよび展開するためのすべてのツールを提供します。
最先端のモデルとカスタマイズ可能性を、穏やかな学習曲線と新人向けのシンプルなユーザーインターフェイスを組み合わせています。

要約(オリジナル)

We present NeuralOperator, an open-source Python library for operator learning. Neural operators generalize neural networks to maps between function spaces instead of finite-dimensional Euclidean spaces. They can be trained and inferenced on input and output functions given at various discretizations, satisfying a discretization convergence properties. Built on top of PyTorch, NeuralOperator provides all the tools for training and deploying neural operator models, as well as developing new ones, in a high-quality, tested, open-source package. It combines cutting-edge models and customizability with a gentle learning curve and simple user interface for newcomers.

arxiv情報

著者 Jean Kossaifi,Nikola Kovachki,Zongyi Li,David Pitt,Miguel Liu-Schiaffini,Robert Joseph George,Boris Bonev,Kamyar Azizzadenesheli,Julius Berner,Valentin Duruisseaux,Anima Anandkumar
発行日 2025-04-30 17:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Library for Learning Neural Operators はコメントを受け付けていません

Hexcute: A Tile-based Programming Language with Automatic Layout and Task-Mapping Synthesis

要約

ディープラーニング(DL)ワークロードは、主にGPUなどのアクセラレータで実行されます。
最近のDL量子化技術では、入力データ型が混在している新しいマトリックス乗算演算子が必要であり、GPUの最適化をさらに複雑にしています。
Tritonのような以前の高レベルのコンパイラには、これらの演算子向けの微細に粒のデータパイプラインやハードウェアに優しいメモリレイアウトなどの重要な最適化を実装する表現力がありませんが、Hidet、Graphene、Cutlassなどの低レベルのプログラミングモデルには、重要なプログラミング努力が必要です。
表現力とエンジニアリングの取り組みのバランスをとるために、共有メモリを公開し、抽象化を登録して抽象化を登録して、これらの演算子に微調整された最適化を可能にするタイルベースのプログラミング言語であるHexcuteを提案します。
さらに、HexCuteはタスクマッピングを活用してGPUプログラムをスケジュールし、プログラミングの取り組みを減らすために、新しいタイプ関税ベースのアルゴリズムでレイアウトとタスクマッピング合成を自動化します。
私たちの評価は、Hexcuteが幅広いDL演算子に一般化し、混合型演算子の既存のDLコンパイラで1.7-11.28 $ \ Times $速度を達成し、エンドツーエンド評価で最大2.91 $ \ Times $ speedupをもたらすことを示しています。

要約(オリジナル)

Deep learning (DL) workloads mainly run on accelerators like GPUs. Recent DL quantization techniques demand a new matrix multiplication operator with mixed input data types, further complicating GPU optimization. Prior high-level compilers like Triton lack the expressiveness to implement key optimizations like fine-grained data pipelines and hardware-friendly memory layouts for these operators, while low-level programming models, such as Hidet, Graphene, and CUTLASS, require significant programming efforts. To balance expressiveness with engineering effort, we propose Hexcute, a tile-based programming language that exposes shared memory and register abstractions to enable fine-grained optimization for these operators. Additionally, Hexcute leverages task mapping to schedule the GPU program, and to reduce programming efforts, it automates layout and task mapping synthesis with a novel type-inference-based algorithm. Our evaluation shows that Hexcute generalizes to a wide range of DL operators, achieves 1.7-11.28$\times$ speedup over existing DL compilers for mixed-type operators, and brings up to 2.91$\times$ speedup in the end-to-end evaluation.

arxiv情報

著者 Xiao Zhang,Yaoyao Ding,Yang Hu,Gennady Pekhimenko
発行日 2025-04-30 17:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL | Hexcute: A Tile-based Programming Language with Automatic Layout and Task-Mapping Synthesis はコメントを受け付けていません