SoccerDiffusion: Toward Learning End-to-End Humanoid Robot Soccer from Gameplay Recordings

要約

このペーパーでは、実際のゲームプレイ録音から直接ヒューマノイドロボットサッカーのエンドツーエンド制御ポリシーを学習するように設計された変圧器ベースの拡散モデルであるSoccerDiffusionを紹介します。
Robocup競争から収集されたデータを使用して、モデルは、ビジョン、固有受容、ゲーム状態を含むマルチモーダルセンサー入力からの共同コマンド軌道を予測します。
蒸留技術を採用して、マルチステップ拡散プロセスを単一のステップに削減する埋め込みプラットフォームでのリアルタイム推論を可能にします。
我々の結果は、シミュレーションと物理ロボットの両方で、ウォーキング、キック、転倒の回復など、複雑な動きの動作を複製するモデルの能力を示しています。
高レベルの戦術的行動はまだ限られたままですが、この作業は、その後の強化学習または好みの最適化方法のための堅牢な基盤を提供します。
https://bit-bots.github.io/soccerdifusionの下で、データセット、前提型モデル、およびコードをリリースします

要約(オリジナル)

This paper introduces SoccerDiffusion, a transformer-based diffusion model designed to learn end-to-end control policies for humanoid robot soccer directly from real-world gameplay recordings. Using data collected from RoboCup competitions, the model predicts joint command trajectories from multi-modal sensor inputs, including vision, proprioception, and game state. We employ a distillation technique to enable real-time inference on embedded platforms that reduces the multi-step diffusion process to a single step. Our results demonstrate the model’s ability to replicate complex motion behaviors such as walking, kicking, and fall recovery both in simulation and on physical robots. Although high-level tactical behavior remains limited, this work provides a robust foundation for subsequent reinforcement learning or preference optimization methods. We release the dataset, pretrained models, and code under: https://bit-bots.github.io/SoccerDiffusion

arxiv情報

著者 Florian Vahl,Jörn Griepenburg,Jan Gutsche,Jasper Güldenstein,Jianwei Zhang
発行日 2025-04-29 14:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | SoccerDiffusion: Toward Learning End-to-End Humanoid Robot Soccer from Gameplay Recordings はコメントを受け付けていません

Activated LoRA: Fine-tuned LLMs for Intrinsics

要約

低ランク適応(LORA)は、大規模な基礎モデルの重みを微調整するための非常に効率的なフレームワークとして浮上しており、LLMSのデータ駆動型カスタマイズの頼りになる方法となっています。
高度にカスタマイズされた動作と能力の約束にもかかわらず、ターン履歴全体のキー価値(kV)キャッシュは、世代を開始する前にロラの重みで再計算する必要があるため、多留環境で関連するロラを切り替えることは非常に非効率的です。
この問題に対処するために、アクティブ化されたLora(Alora)を提案します。これにより、Loraフレームワークを変更して、Aloraが呼び出されたシーケンス\ Emphing {after}のトークンの重みのみを適応させます。
この変更により、アロラは入力文字列の基本モデルのKVキャッシュを受け入れることができます。つまり、キャッシュを再計算せずにチェーンで必要なときはいつでもアロラを即座にアクティブにすることができます。
これにより、私たちが呼ぶものを構築することができます。つまり、デフォルトで基本モデルを使用する入力チェーンまたは会話の一部で明確に定義された操作を実行するために呼び出された高度に専門化されたモデルを呼び出します。
Aloraを使用して、一連の内在性モデルを訓練し、標準のLORAとの競争精度を実証しながら、重要な推論上の利点を達成します。

要約(オリジナル)

Low-Rank Adaptation (LoRA) has emerged as a highly efficient framework for finetuning the weights of large foundation models, and has become the go-to method for data-driven customization of LLMs. Despite the promise of highly customized behaviors and capabilities, switching between relevant LoRAs in a multiturn setting is highly inefficient, as the key-value (KV) cache of the entire turn history must be recomputed with the LoRA weights before generation can begin. To address this problem, we propose Activated LoRA (aLoRA), which modifies the LoRA framework to only adapt weights for the tokens in the sequence \emph{after} the aLoRA is invoked. This change crucially allows aLoRA to accept the base model’s KV cache of the input string, meaning that aLoRA can be instantly activated whenever needed in a chain without recomputing the cache. This enables building what we call \emph{intrinsics}, i.e. highly specialized models invoked to perform well-defined operations on portions of an input chain or conversation that otherwise uses the base model by default. We use aLoRA to train a set of intrinsics models, demonstrating competitive accuracy with standard LoRA while achieving significant inference benefits.

arxiv情報

著者 Kristjan Greenewald,Luis Lastras,Thomas Parnell,Vraj Shah,Lucian Popa,Giulio Zizzo,Chulaka Gunasekara,Ambrish Rawat,David Cox
発行日 2025-04-29 14:25:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Activated LoRA: Fine-tuned LLMs for Intrinsics はコメントを受け付けていません

LocAgent: Graph-Guided LLM Agents for Code Localization

要約

コードのローカリゼーション – コードベースの変更を行う必要がある場所を正確に特定することは、ソフトウェアメンテナンスにおける根本的でありながら挑戦的なタスクです。
既存のアプローチは、関連するコードセクションを識別するときに複雑なコードベースを効率的にナビゲートするのに苦労しています。
課題は、適切なコード要素を備えた自然言語の問題の説明を埋めることにあり、多くの場合、階層構造と複数の依存関係を越えて推論が必要です。
グラフベースの表現を介してコードのローカリゼーションに対処するフレームワークであるLocagentを紹介します。
コードベースを指示された不均一なグラフに解析することにより、Locagentはコード構造(ファイル、クラス、関数)とその依存関係(インポート、招待状、継承)をキャプチャする軽量表現を作成し、LLMエージェントが強力なマルチホップの推論を通じて効果的に検索し、関連するエンティティを見つけられるようにします。
実際のベンチマークでの実験結果は、このアプローチがコードのローカリゼーションの精度を大幅に向上させることを示しています。
特に、微調整されたQwen-2.5-Coder-Instruct-32Bモデルを使用した方法は、コストが大幅に削減された(約86%の削減)でSOTA独自モデルに匹敵する結果を達成し、ファイルレベルのローカリゼーションで最大92.7%の精度に達し、下流のGithub問題解決の成功率が12%(@10)を改善します。
私たちのコードは、https://github.com/gersteinlab/locagentで入手できます。

要約(オリジナル)

Code localization–identifying precisely where in a codebase changes need to be made–is a fundamental yet challenging task in software maintenance. Existing approaches struggle to efficiently navigate complex codebases when identifying relevant code sections. The challenge lies in bridging natural language problem descriptions with the appropriate code elements, often requiring reasoning across hierarchical structures and multiple dependencies. We introduce LocAgent, a framework that addresses code localization through graph-based representation. By parsing codebases into directed heterogeneous graphs, LocAgent creates a lightweight representation that captures code structures (files, classes, functions) and their dependencies (imports, invocations, inheritance), enabling LLM agents to effectively search and locate relevant entities through powerful multi-hop reasoning. Experimental results on real-world benchmarks demonstrate that our approach significantly enhances accuracy in code localization. Notably, our method with the fine-tuned Qwen-2.5-Coder-Instruct-32B model achieves comparable results to SOTA proprietary models at greatly reduced cost (approximately 86% reduction), reaching up to 92.7% accuracy on file-level localization while improving downstream GitHub issue resolution success rates by 12% for multiple attempts (Pass@10). Our code is available at https://github.com/gersteinlab/LocAgent.

arxiv情報

著者 Zhaoling Chen,Xiangru Tang,Gangda Deng,Fang Wu,Jialong Wu,Zhiwei Jiang,Viktor Prasanna,Arman Cohan,Xingyao Wang
発行日 2025-04-29 14:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | LocAgent: Graph-Guided LLM Agents for Code Localization はコメントを受け付けていません

Ascendra: Dynamic Request Prioritization for Efficient LLM Serving

要約

大規模な言語モデル(LLMS)の急速な進歩により、より効率的なサービス戦略が必要になりました。
これに関連して、効率性とは、特に最初のトークン(TTFT)とトークン間の時間(TBT)までの時間の間、サービスレベルの目標(SLO)を満たすリクエストの割合を指します。
ただし、既存のシステムは、他のシステムの犠牲を払って1つのメトリックに優先順位を付けることがよくあります。
TTFTとTBTの両方のSLOを同時に満たすように設計されたLLMサービングシステムであるAscendraを提示します。
Ascendraの背後にある中心的な洞察は、リクエストの緊急性が締め切りに近づくにつれて進化するということです。
これを活用するために、AscendraはGPUリソ​​ースを2つのタイプのインスタンスに分割します:低価格と優先度。
低優先度インスタンスは、到着順序からリクエストを処理することによりスループットを最大化しますが、リクエストの飢vのリスクがあります。
これに対処するために、Ascendraはパフォーマンスモデルを採用して、スロを逃すリスクのあるリクエストを予測し、積極的に優先度の高いインスタンスに積極的にオフロードします。
優先度の高いインスタンスは、低遅延の実行のために最適化されており、締め切りに近づく緊急の要求を処理します。
この分割アーキテクチャにより、Ascendraは高スループットと低レイテンシーのバランスを効果的にバランスさせることができます。
広範な評価によると、Ascendraは、TTFTとTBTの両方のSLOを満たしている間、VLLMとSarathi-Serveに比べて最大1.7倍のシステムスループットを改善することを示しています。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has driven the need for more efficient serving strategies. In this context, efficiency refers to the proportion of requests that meet their Service Level Objectives (SLOs), particularly for Time To First Token (TTFT) and Time Between Tokens (TBT). However, existing systems often prioritize one metric at the cost of the other. We present Ascendra, an LLM serving system designed to meet both TTFT and TBT SLOs simultaneously. The core insight behind Ascendra is that a request’s urgency evolves as it approaches its deadline. To leverage this, Ascendra partitions GPU resources into two types of instances: low-priority and high-priority. Low-priority instances maximize throughput by processing requests out of arrival order, but at the risk of request starvation. To address this, Ascendra employs a performance model to predict requests at risk of missing their SLOs and proactively offloads them to high-priority instances. High-priority instances are optimized for low-latency execution and handle urgent requests nearing their deadlines. This partitioned architecture enables Ascendra to effectively balance high throughput and low latency. Extensive evaluation shows that Ascendra improves system throughput by up to 1.7x compared to vLLM and Sarathi-Serve while meeting both TTFT and TBT SLOs.

arxiv情報

著者 Azam Ikram,Xiang Li,Sameh Elnikety,Saurabh Bagchi
発行日 2025-04-29 14:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Ascendra: Dynamic Request Prioritization for Efficient LLM Serving はコメントを受け付けていません

NSFlow: An End-to-End FPGA Framework with Scalable Dataflow Architecture for Neuro-Symbolic AI

要約

Neuro-Symbolic AI(NSAI)は、AIシステムの透明性、推論能力、およびデータ効率を高めるために、ニューラルネットワークを象徴的な推論と統合する新たなパラダイムです。
最近のNSAIシステムは、推論タスクと人間との共同シナリオにおける並外れたパフォーマンスにより、牽引力を獲得しています。
これらのアルゴリズムの進歩にもかかわらず、不均一なコンピューティングカーネル、高いメモリ強度、ユニークなメモリアクセスパターンのため、既存のハードウェア(例:CPU、GPU、TPUなど)でNSAIタスクを実行することは依然として困難です。
さらに、現在のNSAIアルゴリズムは、動作の種類とスケールに大幅な変動を示し、既存のMLアクセラレータと互換性がありません。
これらの課題は、NSAIワークロードに合わせた多用途で柔軟な加速フレームワークの必要性を強調しています。
この論文では、NSAIシステム全体で高い効率、スケーラビリティ、および汎用性を実現するように設計されたFPGAベースの加速フレームワークであるNSFLOWを提案します。
NSFLOWは、ワークロードデータ依存関係を識別し、最適化されたデータフローアーキテクチャを作成するデザインアーキテクチャジェネレーターと、柔軟なコンピューティングユニット、再編成可能なメモリ、および混合程度の機能を備えた再構成可能な配列を備えています。
NSAIワークロード全体で評価するNSFLOWは、Jetson TX2よりも31倍のスピードアップ、GPUで2倍以上、TPUのような収縮アレイで8倍のスピードアップ、Xilinx DPUで3倍以上を達成します。
また、NSFLOWはスケーラビリティの向上を実証し、シンボリックワークロードが150倍スケーリングされた場合、ランタイムが4倍に増加するのはわずか4倍です。
私たちの知る限り、NSFLOWはリアルタイムの一般化可能なNSAIアルゴリズムの加速を可能にする最初のフレームワークであり、次世代認知システムの有望なソリューションを実証します。

要約(オリジナル)

Neuro-Symbolic AI (NSAI) is an emerging paradigm that integrates neural networks with symbolic reasoning to enhance the transparency, reasoning capabilities, and data efficiency of AI systems. Recent NSAI systems have gained traction due to their exceptional performance in reasoning tasks and human-AI collaborative scenarios. Despite these algorithmic advancements, executing NSAI tasks on existing hardware (e.g., CPUs, GPUs, TPUs) remains challenging, due to their heterogeneous computing kernels, high memory intensity, and unique memory access patterns. Moreover, current NSAI algorithms exhibit significant variation in operation types and scales, making them incompatible with existing ML accelerators. These challenges highlight the need for a versatile and flexible acceleration framework tailored to NSAI workloads. In this paper, we propose NSFlow, an FPGA-based acceleration framework designed to achieve high efficiency, scalability, and versatility across NSAI systems. NSFlow features a design architecture generator that identifies workload data dependencies and creates optimized dataflow architectures, as well as a reconfigurable array with flexible compute units, re-organizable memory, and mixed-precision capabilities. Evaluating across NSAI workloads, NSFlow achieves 31x speedup over Jetson TX2, more than 2x over GPU, 8x speedup over TPU-like systolic array, and more than 3x over Xilinx DPU. NSFlow also demonstrates enhanced scalability, with only 4x runtime increase when symbolic workloads scale by 150x. To the best of our knowledge, NSFlow is the first framework to enable real-time generalizable NSAI algorithms acceleration, demonstrating a promising solution for next-generation cognitive systems.

arxiv情報

著者 Hanchen Yang,Zishen Wan,Ritik Raj,Joongun Park,Ziwei Li,Ananda Samajdar,Arijit Raychowdhury,Tushar Krishna
発行日 2025-04-29 14:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, cs.PF | NSFlow: An End-to-End FPGA Framework with Scalable Dataflow Architecture for Neuro-Symbolic AI はコメントを受け付けていません

Reinforcement Learning for LLM Reasoning Under Memory Constraints

要約

メモリと計算の制約の下で、大規模な言語モデル(LLMS)のターゲットを絞った問題スペース内で推論を強化するための強化学習(RL)テクニックを探ります。
私たちの焦点は、学術環境の一般的な制限である単一の40GB GPUのLora微調整と互換性がある批評家のない方法に焦点を当てています。
グループ相対ポリシーの最適化のメモリ効率の高いバリアントであるS-GRPOと、細かいクレジット割り当てのためのトークンレベルのプレフィックスマッチング戦略であるT-SPMOを紹介します。
リソースが限られているにもかかわらず、QWEN2-1.5Bの微調整に使用する場合、両方の方法は、LORAトレーニングを使用してSVAMPベンチマークの精度を46%から70%を超えて大幅に改善します。
T-SPMOは、ハードウェアの制約に基づくRL微調整の可能性を強調して、マルチ桁の乗算タスクにも優れています。
さらに、LORA微調整中のフルトークンGRPOベースラインは、いずれのタスクでもモデルパフォーマンス(ベースモデルと比較して)を改善しなかったことがわかり、パラメーターの小さなサブセットのみが更新された場合にトレーニングを安定させる正規化の形式としてメモリ効率の高い方法として機能する可能性があることが示唆されています。

要約(オリジナル)

We explore reinforcement learning (RL) techniques to enhance reasoning within targeted problem spaces in large language models (LLMs) under memory and compute constraints. Our focus is on critic-free methods compatible with LoRA fine-tuning on a single 40GB GPU, a common limitation in academic settings. We introduce S-GRPO, a memory-efficient variant of Group Relative Policy Optimization, and T-SPMO, a token-level prefix matching strategy for fine-grained credit assignment. Despite limited resources, when used to fine-tune Qwen2-1.5B both methods significantly improve SVAMP benchmark accuracy from 46% to above 70% using LoRA training. T-SPMO also excels in multi-digit multiplication tasks, underscoring the potential of RL fine-tuning under hardware constraints. Additionally, we find that our full-token GRPO baseline under LoRA fine-tuning did not improve model performance (compared to base model) on either task, suggesting that our memory-efficient methods may act as a form of regularization that stabilizes training when only a small subset of parameters are updated.

arxiv情報

著者 Alan Lee,Harry Tong
発行日 2025-04-29 14:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Reinforcement Learning for LLM Reasoning Under Memory Constraints はコメントを受け付けていません

Disjunctive and Conjunctive Normal Form Explanations of Clusters Using Auxiliary Information

要約

クラスタリングアルゴリズムでは使用されていない補助情報を使用して、さまざまなデータセットから生成されたクラスターの事後説明を生成することを検討します。
以前の作業で使用された用語に続いて、補助情報をタグと呼びます。
私たちの焦点は、2つの形式の説明、すなわち、分離形式(クラスターの説明はタグのセットで構成されている場合)と2つの接続詞正規形式(CNF)の説明(説明は2セットのタグで構成され、オペレーターを組み合わせた2つのタグで構成されています)に焦点を当てています。
整数線形プログラミング(ILP)とヒューリスティックな方法を使用して、これらの説明を生成します。
さまざまなデータセットを実験し、説明から得た洞察について説明します。
また、説明方法のスケーラビリティに関する実験結果を提示します。

要約(オリジナル)

We consider generating post-hoc explanations of clusters generated from various datasets using auxiliary information which was not used by clustering algorithms. Following terminology used in previous work, we refer to the auxiliary information as tags. Our focus is on two forms of explanations, namely disjunctive form (where the explanation for a cluster consists of a set of tags) and a two-clause conjunctive normal form (CNF) explanation (where the explanation consists of two sets of tags, combined through the AND operator). We use integer linear programming (ILP) as well as heuristic methods to generate these explanations. We experiment with a variety of datasets and discuss the insights obtained from our explanations. We also present experimental results regarding the scalability of our explanation methods.

arxiv情報

著者 Robert F. Downey,S. S. Ravi
発行日 2025-04-29 15:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2 | Disjunctive and Conjunctive Normal Form Explanations of Clusters Using Auxiliary Information はコメントを受け付けていません

Mitigating the Structural Bias in Graph Adversarial Defenses

要約

近年、グラフニューラルネットワーク(GNN)は、さまざまなグラフ構造関連の下流タスクに対処する上で大きな可能性を示しています。
しかし、最近の研究では、現在のGNNは悪意のある敵対攻撃の影響を受けやすいことがわかりました。
現実の世界での敵対的攻撃の避けられない存在を考えると、これらの攻撃に対抗し、GNNの堅牢性を高めるために、さまざまな防御方法が提案されています。
これらの防御方法の称賛に値するパフォーマンスにもかかわらず、私たちは、クリーングラフの低いノード上の従来のGNNの構造バイアスに似た、低い程度(つまり、テールノード)のノードでの防御能力の観点から構造的バイアスを示す傾向があることを観察しました。
したがって、この作業では、ヘテロホモの拡張グラフ構造、$ k $ nn拡張グラフ構造、および敵対的攻撃に対するGNNの構造バイアスを軽減するためのマルチビューノードごとの注意モジュールを含めることにより、防御戦略を提案します。
特に、ヘテロホモの拡張グラフは、グローバルにヘテロファイリックリンク(つまり、ノードを接続するリンクを非類似の特徴と接続するリンク)を削除し、同性愛リンク(つまり、ノードを同様の特徴と接続するリンク)を低い度のあるノードに追加することで構成されています。
防御能力をさらに強化するために、上記の2種類のグラフビューからの表現を適応的に組み合わせて、注意メカニズムが採用されます。
提案された戦略がベンチマークデータセットに及ぼす防御と紛争効果を実証するために、広範な実験を実施します。

要約(オリジナル)

In recent years, graph neural networks (GNNs) have shown great potential in addressing various graph structure-related downstream tasks. However, recent studies have found that current GNNs are susceptible to malicious adversarial attacks. Given the inevitable presence of adversarial attacks in the real world, a variety of defense methods have been proposed to counter these attacks and enhance the robustness of GNNs. Despite the commendable performance of these defense methods, we have observed that they tend to exhibit a structural bias in terms of their defense capability on nodes with low degree (i.e., tail nodes), which is similar to the structural bias of traditional GNNs on nodes with low degree in the clean graph. Therefore, in this work, we propose a defense strategy by including hetero-homo augmented graph construction, $k$NN augmented graph construction, and multi-view node-wise attention modules to mitigate the structural bias of GNNs against adversarial attacks. Notably, the hetero-homo augmented graph consists of removing heterophilic links (i.e., links connecting nodes with dissimilar features) globally and adding homophilic links (i.e., links connecting nodes with similar features) for nodes with low degree. To further enhance the defense capability, an attention mechanism is adopted to adaptively combine the representations from the above two kinds of graph views. We conduct extensive experiments to demonstrate the defense and debiasing effect of the proposed strategy on benchmark datasets.

arxiv情報

著者 Junyuan Fang,Huimin Liu,Han Yang,Jiajing Wu,Zibin Zheng,Chi K. Tse
発行日 2025-04-29 15:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Mitigating the Structural Bias in Graph Adversarial Defenses はコメントを受け付けていません

Fostering Self-Directed Growth with Generative AI: Toward a New Learning Analytics Framework

要約

分散型の知識生態系と広範なAI技術によってますます形作られる時代に、持続可能な学習者機関の育成が重要な教育的義務となっています。
この研究では、生成的人工知能と学習分析を統合するための生成的人工知能と学習分析を統合する新しい概念的なフレームワークを紹介します。これは、学習者が多様な文脈を越えて独自の発達経路を繰り返し促進できる動的能力です。
将来の介入設計と学習分析アプリケーションに対する測定学的な意味について、GAI内での考え方、および総合的自己評価が議論され、デジタル時代に公平で適応性のある、および持続可能な学習システムを開発するための重要な軸として自己指向の成長を位置づけます。

要約(オリジナル)

In an era increasingly shaped by decentralized knowledge ecosystems and pervasive AI technologies, fostering sustainable learner agency has become a critical educational imperative. This study introduces a novel conceptual framework integrating Generative Artificial Intelligence and Learning Analytics to cultivate Self-Directed Growth, a dynamic competency that enables learners to iteratively drive their own developmental pathways across diverse contexts.Building upon critical gaps in current research on Self Directed Learning and AI-mediated education, the proposed Aspire to Potentials for Learners (A2PL) model reconceptualizes the interplay of learner aspirations, complex thinking, and summative self-assessment within GAI supported environments.Methodological implications for future intervention design and learning analytics applications are discussed, positioning Self-Directed Growth as a pivotal axis for developing equitable, adaptive, and sustainable learning systems in the digital era.

arxiv情報

著者 Qianrun Mao
発行日 2025-04-29 15:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Fostering Self-Directed Growth with Generative AI: Toward a New Learning Analytics Framework はコメントを受け付けていません

Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning

要約

このペーパーでは、高価なGPUを必要とせずに、MLワークロードパフォーマンスに対する実際のハードウェアネットワークの動作の影響を捉えるテストフレームワークであるGenieの基礎を築きます。
Genieは、ハードウェアテストベッド上のCPU開始トラフィックを使用してGPUをGPU通信にエミュレートし、Astra-SIMシミュレーターを適応させて、ネットワークとMLワークロード間の相互作用をモデル化します。

要約(オリジナル)

This paper lays the foundation for Genie, a testing framework that captures the impact of real hardware network behavior on ML workload performance, without requiring expensive GPUs. Genie uses CPU-initiated traffic over a hardware testbed to emulate GPU to GPU communication, and adapts the ASTRA-sim simulator to model interaction between the network and the ML workload.

arxiv情報

著者 Jinsun Yoo,ChonLam Lao,Lianjie Cao,Bob Lantz,Minlan Yu,Tushar Krishna,Puneet Sharma
発行日 2025-04-29 15:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.NI, cs.SY, eess.SY | Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning はコメントを受け付けていません