Efficient Discovery of Motif Transition Process for Large-Scale Temporal Graphs

要約

一時的なグラフでモチーフの動的遷移を理解することは、グラフ構造が時間の経過とともに進化し、重要なパターンを特定し、将来の行動を予測する方法を明らかにするために不可欠ですが、既存の方法は事前定義されたモチーフに焦点を当て、透明と相互関係を包括的にキャプチャする能力を制限することがよくあります。
大規模な時間グラフでモチーフ遷移プロセスを発見するための新しい並列方法である並列モチーフ遷移プロセス発見アルゴリズムPTMTを提案します。
PTMTは、ツリーベースのフレームワークを、時間と構造によって時間と構造をパーティション化しながら、ロスレスモチーフの遷移を保存し、大規模な並列性を可能にしながら、時間と構造を分割するタイムゾーンパーティション(TZP)戦略と統合します。
PTMTは、成長ゾーンの並列膨張、オーバーラップアウェア結果集計、およびモチーフ遷移の決定論的エンコードの3つのフェーズで構成され、動的遷移と相互作用の正確な追跡を確保します。
10個の実際のデータセットの結果は、PTMTがSOTAメソッドと比較して12.0 $ \ Times $から50.3 $ \ Times $の範囲のスピードアップを達成することを示しています。

要約(オリジナル)

Understanding the dynamic transition of motifs in temporal graphs is essential for revealing how graph structures evolve over time, identifying critical patterns, and predicting future behaviors, yet existing methods often focus on predefined motifs, limiting their ability to comprehensively capture transitions and interrelationships. We propose a parallel motif transition process discovery algorithm, PTMT, a novel parallel method for discovering motif transition processes in large-scale temporal graphs. PTMT integrates a tree-based framework with the temporal zone partitioning (TZP) strategy, which partitions temporal graphs by time and structure while preserving lossless motif transitions and enabling massive parallelism. PTMT comprises three phases: growth zone parallel expansion, overlap-aware result aggregation, and deterministic encoding of motif transitions, ensuring accurate tracking of dynamic transitions and interactions. Results on 10 real-world datasets demonstrate that PTMT achieves speedups ranging from 12.0$\times$ to 50.3$\times$ compared to the SOTA method.

arxiv情報

著者 Zhiyuan Zheng,Jianpeng Qi,Jiantao Li,Guoqing Chao,Junyu Dong,Yanwei Yu
発行日 2025-04-22 15:30:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG | Efficient Discovery of Motif Transition Process for Large-Scale Temporal Graphs はコメントを受け付けていません

An Operator Splitting View of Federated Learning

要約

過去数年にわたって、フェデレートラーニング($ \ texttt {fl} $)コミュニティは、新しい$ \ texttt {fl} $ algorithmsの拡散を目撃しました。
ただし、$ \ texttt {fl} $の理論の控えめになっていることは依然として断片化されており、これらのアルゴリズムの徹底的な正式な比較はとらえどころのないままです。
このギャップに動機付けられて、既存の$ \ texttt {fl} $アルゴリズムの多くは、オペレーターの分割観点から理解できることを示します。
この統一により、さまざまなアルゴリズムを簡単に比較し、以前の収束結果を改善し、新しいアルゴリズムバリアントを明らかにすることができます。
特に、私たちの分析は、$ \ texttt {fl} $アルゴリズムのステップサイズによって果たす重要な役割を明らかにしています。
統一はまた、通信オーバーヘッドを発生させることなく、$ \ texttt {fl} $アルゴリズムを加速するための合理化された経済的方法につながります。
凸モデルと非凸モデルの両方で数値実験を行い、調査結果を検証します。

要約(オリジナル)

Over the past few years, the federated learning ($\texttt{FL}$) community has witnessed a proliferation of new $\texttt{FL}$ algorithms. However, our understating of the theory of $\texttt{FL}$ is still fragmented, and a thorough, formal comparison of these algorithms remains elusive. Motivated by this gap, we show that many of the existing $\texttt{FL}$ algorithms can be understood from an operator splitting point of view. This unification allows us to compare different algorithms with ease, to refine previous convergence results and to uncover new algorithmic variants. In particular, our analysis reveals the vital role played by the step size in $\texttt{FL}$ algorithms. The unification also leads to a streamlined and economic way to accelerate $\texttt{FL}$ algorithms, without incurring any communication overhead. We perform numerical experiments on both convex and nonconvex models to validate our findings.

arxiv情報

著者 Saber Malekmohammadi,Kiarash Shaloudegi,Zeou Hu,Yaoliang Yu
発行日 2025-04-22 15:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | An Operator Splitting View of Federated Learning はコメントを受け付けていません

A Catalog of Fairness-Aware Practices in Machine Learning Engineering

要約

意思決定プロセスにおける機械学習の広範な採用は、特に敏感な特徴の治療と少数派に対する潜在的な差別の治療に関する公平性に関する懸念を引き起こします。
ソフトウェアエンジニアリングコミュニティは、公平性指向のメトリック、経験的研究、およびアプローチを開発することで対応しました。
ただし、機械学習ライフサイクル全体で、エンジニアリングの公平性のための実践を理解し、分類することにはギャップが残っています。
このペーパーでは、体系的なマッピング研究から派生した機械学習の公平性に対処するための実践の新しいカタログを紹介します。
この調査では、既存の文献から28のプラクティスを特定して分類し、機械学習ライフサイクルのさまざまな段階にマッピングします。
このカタログから、著者は、ソフトウェアエンジニアリングの研究者と実践者の両方に実用的なアイテムと意味を抽出します。
この作業の目的は、機械学習システムの開発と展開に公平性の考慮事項を統合し、信頼性、説明責任、および信頼性を高めるための包括的なリソースを提供することを目的としています。

要約(オリジナル)

Machine learning’s widespread adoption in decision-making processes raises concerns about fairness, particularly regarding the treatment of sensitive features and potential discrimination against minorities. The software engineering community has responded by developing fairness-oriented metrics, empirical studies, and approaches. However, there remains a gap in understanding and categorizing practices for engineering fairness throughout the machine learning lifecycle. This paper presents a novel catalog of practices for addressing fairness in machine learning derived from a systematic mapping study. The study identifies and categorizes 28 practices from existing literature, mapping them onto different stages of the machine learning lifecycle. From this catalog, the authors extract actionable items and implications for both researchers and practitioners in software engineering. This work aims to provide a comprehensive resource for integrating fairness considerations into the development and deployment of machine learning systems, enhancing their reliability, accountability, and credibility.

arxiv情報

著者 Gianmario Voria,Giulia Sellitto,Carmine Ferrara,Francesco Abate,Andrea De Lucia,Filomena Ferrucci,Gemma Catolino,Fabio Palomba
発行日 2025-04-22 15:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | A Catalog of Fairness-Aware Practices in Machine Learning Engineering はコメントを受け付けていません

Benchmarking machine learning models for predicting aerofoil performance

要約

このペーパーでは、風力および潮のエネルギー産業で使用されている航空のパフォーマンスを分析するための従来の方法の代替品として、ニューラルネットワーク(NNS)の能力を調査します。
特徴的なリフトとドラッグ係数の評価に使用される現在の方法には、計算液ダイナミクス(CFD)、薄いエーロフォイル、およびパネルの方法が含まれます。すべての計算速度と結果の精度との間の顔のトレードオフが含まれており、そのようなNNSは、迅速かつ正確に実行されることを目的として代替として調査されています。
そのため、このペーパーでは、米国の国立再生可能エネルギー研究所(NREL)が発行したWindai_benchデータセットのベンチマークを提供します。
ベンチマークの方法論を検証するために、airfrans {\ tt arxiv:2212.07564v3}データセットは、出発点と比較ポイントの両方として使用されます。
この研究では、25角度の攻撃(4 $^\ circ $ $ $^\ circ $)で範囲の航空で訓練された4つのニューラルネットワーク(MLP、ポイントネット、グラフセージ、ガネット)を評価します。
流体の流れを予測し、パネル法を介してリフト係数($ c_l $)を計算します。
グラフセージとガネットは、テスト段階でうまく機能しましたが、検証中はパフォーマンスが低くなりました。
したがって、このペーパーでは、PointNetとMLPがテストされた2つの強力なモデルとして特定されていますが、MLPの結果は流体の動作を予測するのがより一般的に正しい一方で、ポイントネットの結果は$ C_L $を計算するためのより正確な結果を提供します。

要約(オリジナル)

This paper investigates the capability of Neural Networks (NNs) as alternatives to the traditional methods to analyse the performance of aerofoils used in the wind and tidal energy industry. The current methods used to assess the characteristic lift and drag coefficients include Computational Fluid Dynamics (CFD), thin aerofoil and panel methods, all face trade-offs between computational speed and the accuracy of the results and as such NNs have been investigated as an alternative with the aim that it would perform both quickly and accurately. As such, this paper provides a benchmark for the windAI_bench dataset published by the National Renewable Energy Laboratory (NREL) in the USA. In order to validate the methodology of the benchmarking, the AirfRANS {\tt arXiv:2212.07564v3} dataset is used as both a starting point and a point of comparison. This study evaluates four neural networks (MLP, PointNet, GraphSAGE, GUNet) trained on a range aerofoils at 25 angles of attack (4$^\circ$ to 20$^\circ$). to predict fluid flow and calculate lift coefficients ($C_L$) via the panel method. GraphSAGE and GUNet performed well during the testing phase, but underperformed during validation. Accordingly, this paper has identified PointNet and MLP as the two strongest models tested, however whilst the results from MLP are more commonly correct for predicting the behaviour of the fluid, the results from PointNet provide the more accurate results for calculating $C_L$.

arxiv情報

著者 Oliver Summerell,Gerardo Aragon-Camarasa,Stephanie Ordonez Sanchez
発行日 2025-04-22 15:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.flu-dyn | Benchmarking machine learning models for predicting aerofoil performance はコメントを受け付けていません

The Formation of Production Networks: How Supply Chains Arise from Simple Learning with Minimal Information

要約

私たちは、企業が差別化可能な商品を販売する価格、生産する量、および他の企業から購入する投入物(種類と量)を決定するモデルを開発します。
定常状態の生産ネットワークは、均衡や生産技術に関する完全な知識などの仮定に頼ることなく内因的に現れます。
補強学習の単純なバージョンを通じて、不均一な技術を持つ企業は不確実性に対処し、利益を最大化します。
この学習プロセスにより、企業は需要シフト、サプライヤー/クライアントの閉鎖、生産性の変更、生産技術の変更などのショックに適応できます。
生産ネットワークを効果的に再形成します。
このモデルの可能性を実証するために、需要と生産性ショックの上流および下流の影響を分析します。

要約(オリジナル)

We develop a model where firms determine the price at which they sell their differentiable goods, the volume that they produce, and the inputs (types and amounts) that they purchase from other firms. A steady-state production network emerges endogenously without resorting to assumptions such as equilibrium or perfect knowledge about production technologies. Through a simple version of reinforcement learning, firms with heterogeneous technologies cope with uncertainty and maximize profits. Due to this learning process, firms can adapt to shocks such as demand shifts, suppliers/clients closure, productivity changes, and production technology modifications; effectively reshaping the production network. To demonstrate the potential of this model, we analyze the upstream and downstream impact of demand and productivity shocks.

arxiv情報

著者 Tuong Manh Vu,Ernesto Carrella,Robert Axtell,Omar A. Guerrero
発行日 2025-04-22 16:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, econ.GN, q-fin.EC | The Formation of Production Networks: How Supply Chains Arise from Simple Learning with Minimal Information はコメントを受け付けていません

When resampling/reweighting improves feature learning in imbalanced classification?: A toy-model study

要約

バイナリ分類の玩具モデルは、クラスの不均衡の存在下での機能学習パフォーマンスに対するクラスの再サンプリング/再航行効果を明確にすることを目的として研究されています。
分析では、入力寸法とのデータセットサイズの比率を有限に保ち、統計力学の非孤独なレプリカメソッドを採用している間、入力空間の高次元制限が取られます。
結果は、再サンプリング/再譲渡状況がない場合、Cao et al。
(2019);
Kang et al。
(2019)。
また、結果の鍵は、損失の対称性と問題設定であることも明らかにされています。
これに触発されて、マルチクラス設定で同じプロパティを示すさらに簡素化されたモデルを提案します。
これらは、クラスの再サンプリング/リワイト化が不均衡な分類に効果的になる時期を明確にします。

要約(オリジナル)

A toy model of binary classification is studied with the aim of clarifying the class-wise resampling/reweighting effect on the feature learning performance under the presence of class imbalance. In the analysis, a high-dimensional limit of the input space is taken while keeping the ratio of the dataset size against the input dimension finite and the non-rigorous replica method from statistical mechanics is employed. The result shows that there exists a case in which the no resampling/reweighting situation gives the best feature learning performance irrespectively of the choice of losses or classifiers, supporting recent findings in Cao et al. (2019); Kang et al. (2019). It is also revealed that the key of the result is the symmetry of the loss and the problem setting. Inspired by this, we propose a further simplified model exhibiting the same property in the multiclass setting. These clarify when the class-wise resampling/reweighting becomes effective in imbalanced classification.

arxiv情報

著者 Tomoyuki Obuchi,Toshiyuki Tanaka
発行日 2025-04-22 16:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.IT, cs.LG, math.IT, stat.ML | When resampling/reweighting improves feature learning in imbalanced classification?: A toy-model study はコメントを受け付けていません

Deep-Learning Control of Lower-Limb Exoskeletons via simplified Therapist Input

要約

部分的支援の外骨格は、規範的な歩行パターンの(再)学習中に積極的な参加を促進することにより、歩行リハビリテーションの重大な可能性を秘めています。
通常、部分支援外骨格における相互作用トルクの制御は、階層制御構造に依存しています。
これらのアプローチでは、特に階段やランプナビゲーションなどのアクティビティでは、コントローラーとユーザー固有のパラメーターチューニングの複雑さのために、広範なキャリブレーションが必要です。
外骨格の階層制御の制限に対処するために、この作業は3段階のデータ駆動型アプローチを提案します。(1)最近のセンサーデータを使用して、ランディングステップの長さ、着陸ステップの高さ、ウォーキング速度、歩行速度、歩行段階、歩行段階)、(2)セラピストがユーザーインターフェースを使用してProsuted adseedの特徴を使用してこれらの特徴を予測することを可能にする(2)(2)(2)(2)
予測の不確実性に基づくスプリングダンパーシステムの剛性。
私たちは、ユーザーインターフェイスを通じて歩行機能の外部変更を伴う場合となしで、さまざまな速度でトレッドミルウォーキングと階段上昇と降下に従事する2人の健康な参加者とともに、提案されたアプローチを評価しました。
結果は、歩行特性に応じた運動学の変動と、異なる条件での外骨格の支援を示唆する負の相互作用力を示しました。

要約(オリジナル)

Partial-assistance exoskeletons hold significant potential for gait rehabilitation by promoting active participation during (re)learning of normative walking patterns. Typically, the control of interaction torques in partial-assistance exoskeletons relies on a hierarchical control structure. These approaches require extensive calibration due to the complexity of the controller and user-specific parameter tuning, especially for activities like stair or ramp navigation. To address the limitations of hierarchical control in exoskeletons, this work proposes a three-step, data-driven approach: (1) using recent sensor data to probabilistically infer locomotion states (landing step length, landing step height, walking velocity, step clearance, gait phase), (2) allowing therapists to modify these features via a user interface, and (3) using the adjusted locomotion features to predict the desired joint posture and model stiffness in a spring-damper system based on prediction uncertainty. We evaluated the proposed approach with two healthy participants engaging in treadmill walking and stair ascent and descent at varying speeds, with and without external modification of the gait features through a user interface. Results showed a variation in kinematics according to the gait characteristics and a negative interaction power suggesting exoskeleton assistance across the different conditions.

arxiv情報

著者 Lorenzo Vianello,Clément Lhoste,Emek Barış Küçüktabak,Matthew Short,Levi Hargrove,Jose L. Pons
発行日 2025-04-22 16:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Deep-Learning Control of Lower-Limb Exoskeletons via simplified Therapist Input はコメントを受け付けていません

CHASE: A Causal Hypergraph based Framework for Root Cause Analysis in Multimodal Microservice Systems

要約

近年、業界内の分散マイクロサービスアーキテクチャの広範な採用により、システムの可用性と堅牢性の向上の需要が大幅に増加しています。
エンタープライズレベルのマイクロサービスシステムの複雑なサービスの呼び出しパスと依存関係により、サービスの呼び出し中に迅速に異常を見つけることは困難であり、通常のシステム操作とメンテナンスに扱いにくい問題を引き起こします。
このホワイトペーパーでは、トレース、ログ、システム監視メトリックを含むマルチモーダルデータを備えたマイクロサービスシステムの根本原因分析のための因果関係の不均一なグラフベースのフレームワーク、つまり追跡を提案します。
具体的には、関連情報は代表的な埋め込みにエンコードされ、マルチモーダル呼び出しグラフによってさらにモデル化されます。
それに続いて、隣接するメトリックとログノードから渡される注意深い不均一なメッセージを使用して、各インスタンスノードで異常検出が実行されます。
最後に、チェイスは、因果関係の流れを表すハイペレッジを備えた構築されたハイパーグラフから学び、根本原因の局在を実行します。
別個の属性を持つ2つのパブリックマイクロサービスデータセットで提案されたフレームワークを評価し、最先端の方法と比較します。
結果は、Chaseが最高のカウンターパートに対してそれぞれ最大36.2%(A@1)および29.4%(割合@1)までの平均パフォーマンスゲインを達成することを示しています。

要約(オリジナル)

In recent years, the widespread adoption of distributed microservice architectures within the industry has significantly increased the demand for enhanced system availability and robustness. Due to the complex service invocation paths and dependencies in enterprise-level microservice systems, it is challenging to locate the anomalies promptly during service invocations, thus causing intractable issues for normal system operations and maintenance. In this paper, we propose a Causal Heterogeneous grAph baSed framEwork for root cause analysis, namely CHASE, for microservice systems with multimodal data, including traces, logs, and system monitoring metrics. Specifically, related information is encoded into representative embeddings and further modeled by a multimodal invocation graph. Following that, anomaly detection is performed on each instance node with attentive heterogeneous message passing from its adjacent metric and log nodes. Finally, CHASE learns from the constructed hypergraph with hyperedges representing the flow of causality and performs root cause localization. We evaluate the proposed framework on two public microservice datasets with distinct attributes and compare with the state-of-the-art methods. The results show that CHASE achieves the average performance gain up to 36.2%(A@1) and 29.4%(Percentage@1), respectively to its best counterpart.

arxiv情報

著者 Ziming Zhao,Zhenwei Wang,Tiehua Zhang,Zhishu Shen,Hai Dong,Zhen Lei,Xingjun Ma,Gaowei Xu,Zhijun Ding,Yun Yang
発行日 2025-04-22 16:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | CHASE: A Causal Hypergraph based Framework for Root Cause Analysis in Multimodal Microservice Systems はコメントを受け付けていません

Harmonia: A Multi-Agent Reinforcement Learning Approach to Data Placement and Migration in Hybrid Storage Systems

要約

ハイブリッドストレージシステム(HSS)は、複数のストレージデバイスを多様な特性と組み合わせて、低コストで高性能と容量を実現します。
HSSのパフォーマンスは、2つの重要なポリシーの有効性に大きく依存します。(1)着信データに最適なストレージデバイスを決定するデータ配置ポリシーと、(2)高HSSパフォーマンスを維持するためにデバイス全体にデータを格納したデータ移行ポリシー。
以前の作業は、HSSのデータ配置のみまたはデータ移行のみを改善することに焦点を当てており、HSSのパフォーマンスが比較的低くなります。
残念ながら、両方のポリシーを一緒に最適化しようとする事前の作業はありません。
私たちの目標は、HSSの可能性を完全に活用してシステムパフォーマンスを大幅に改善するために、データの配置とデータ移行ポリシーの両方を最適化する全体的なデータ管理手法を設計することです。
私たちの目標を達成するために、複数の強化学習(RL)エージェントの必要性を実証します。
2つの軽量自律RLエージェント、データ配置エージェント、およびデータ移行エージェントを採用するマルチエージェントRLベースのデータ管理手法であるHarmoniaを提案します。
最大4つの不均一で多様なストレージデバイスを持つ実際のHSSでハーモニアを評価します。
2つのストレージデバイスを備えたパフォーマンス最適化(コスト最適化)HSSに関する17のデータ集約型ワークロードを使用した当社の評価は、平均して、ハーモニアが49.5%(31.7%)で最もパフォーマンスの高い事前アプローチよりも優れていることを示しています。
3つのデバイスを備えたHSSでは、ハーモニアは最高のパフォーマンスの以前の作業を37.0%(42.0%)よりも優れています。
Harmoniaのパフォーマンスの利点には、レイテンシが低く(推論の場合は240ns)、ストレージオーバーヘッド(両方のRLエージェントを一緒にドラムで206 KIB)が搭載されています。
HSSに関する将来の研究を支援するために、Harmoniaの実装をオープンソースします。

要約(オリジナル)

Hybrid storage systems (HSS) combine multiple storage devices with diverse characteristics to achieve high performance and capacity at low cost. The performance of an HSS highly depends on the effectiveness of two key policies: (1) the data-placement policy, which determines the best-fit storage device for incoming data, and (2) the data-migration policy, which rearranges stored data across the devices to sustain high HSS performance. Prior works focus on improving only data placement or only data migration in HSS, which leads to relatively low HSS performance. Unfortunately, no prior work tries to optimize both policies together. Our goal is to design a holistic data-management technique that optimizes both data-placement and data-migration policies to fully exploit the potential of an HSS, and thus significantly improve system performance. We demonstrate the need for multiple reinforcement learning (RL) agents to accomplish our goal. We propose Harmonia, a multi-agent RL-based data-management technique that employs two lightweight autonomous RL agents, a data-placement agent and a data-migration agent, which adapt their policies for the current workload and HSS configuration, and coordinate with each other to improve overall HSS performance. We evaluate Harmonia on a real HSS with up to four heterogeneous and diverse storage devices. Our evaluation using 17 data-intensive workloads on performance-optimized (cost-optimized) HSS with two storage devices shows that, on average, Harmonia outperforms the best-performing prior approach by 49.5% (31.7%). On an HSS with three (four) devices, Harmonia outperforms the best-performing prior work by 37.0% (42.0%). Harmonia’s performance benefits come with low latency (240ns for inference) and storage overheads (206 KiB in DRAM for both RL agents together). We will open-source Harmonia’s implementation to aid future research on HSS.

arxiv情報

著者 Rakesh Nadig,Vamanan Arulchelvan,Rahul Bera,Taha Shahroodi,Gagandeep Singh,Andreas Kakolyris,Mohammad Sadrosadati,Jisung Park,Onur Mutlu
発行日 2025-04-22 16:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.DC, cs.LG | Harmonia: A Multi-Agent Reinforcement Learning Approach to Data Placement and Migration in Hybrid Storage Systems はコメントを受け付けていません

$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

要約

ロボットが役立つためには、実験室以外の現実世界で実質的に関連するタスクを実行する必要があります。
Vision-Language-action(VLA)モデルは、エンドツーエンドのロボット制御の印象的な結果を示していますが、そのようなモデルが野生でどの程度一般化できるかは未解決の疑問のままです。
$ \ pi_ {0.5} $を説明します。$ \ pi_ {0.5} $は、幅広い一般化を可能にするために異種タスクでの共同トレーニングを使用する$ \ pi_ {0} $に基づく新しいモデルを説明します。
$ \ pi_ {0.5} $ \は、複数のロボット、高レベルのセマンティック予測、Webデータ、およびその他のソースからのデータを使用して、広く一般化可能な実際のロボット操作を可能にします。
当社のシステムは、画像観測、言語コマンド、オブジェクト検出、セマンティックサブタスク予測、および低レベルアクションを組み合わせた、共同トレーニングとハイブリッドマルチモーダルの例の組み合わせを使用しています。
私たちの実験は、この種の知識移転が効果的な一般化に不可欠であることを示しており、エンドツーエンドの学習対応ロボットシステムが、まったく新しい家でキッチンや寝室の掃除などの長時間および器用な操作スキルを実行できることを初めて示します。

要約(オリジナル)

In order for robots to be useful, they must perform practically relevant tasks in the real world, outside of the lab. While vision-language-action (VLA) models have demonstrated impressive results for end-to-end robot control, it remains an open question how far such models can generalize in the wild. We describe $\pi_{0.5}$, a new model based on $\pi_{0}$ that uses co-training on heterogeneous tasks to enable broad generalization. $\pi_{0.5}$\ uses data from multiple robots, high-level semantic prediction, web data, and other sources to enable broadly generalizable real-world robotic manipulation. Our system uses a combination of co-training and hybrid multi-modal examples that combine image observations, language commands, object detections, semantic subtask prediction, and low-level actions. Our experiments show that this kind of knowledge transfer is essential for effective generalization, and we demonstrate for the first time that an end-to-end learning-enabled robotic system can perform long-horizon and dexterous manipulation skills, such as cleaning a kitchen or bedroom, in entirely new homes.

arxiv情報

著者 Physical Intelligence,Kevin Black,Noah Brown,James Darpinian,Karan Dhabalia,Danny Driess,Adnan Esmail,Michael Equi,Chelsea Finn,Niccolo Fusai,Manuel Y. Galliker,Dibya Ghosh,Lachy Groom,Karol Hausman,Brian Ichter,Szymon Jakubczak,Tim Jones,Liyiming Ke,Devin LeBlanc,Sergey Levine,Adrian Li-Bell,Mohith Mothukuri,Suraj Nair,Karl Pertsch,Allen Z. Ren,Lucy Xiaoyang Shi,Laura Smith,Jost Tobias Springenberg,Kyle Stachowicz,James Tanner,Quan Vuong,Homer Walke,Anna Walling,Haohuan Wang,Lili Yu,Ury Zhilinsky
発行日 2025-04-22 17:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | $π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization はコメントを受け付けていません