DFM: Deep Fourier Mimic for Expressive Dance Motion Learning

要約

エンターテインメントロボットが人気を得るにつれて、特にダンスにおける自然で表現力豊かな動きの需要は増え続けています。
伝統的に、ダンスの動きはアーティストによって手動で設計されてきました。これは、労働集約的であり、単純なモーション再生に限定されているプロセスであり、ダンス中に移動や視線制御などの追加のタスクを組み込む柔軟性がありません。
これらの課題を克服するために、高度なモーション表現と強化学習(RL)を組み合わせて動き間のスムーズな移行を可能にしながら、ダンスシーケンス中の補助タスクを並行して管理できる新しい方法であるディープフーリエミミック(DFM)を導入します。
以前の周波数ドメインベースのモーション表現は、ダンスモーションを潜在的なパラメーターにエンコードしたことに成功していますが、多くの場合、ローカルレベルで過度に剛性のある定期的な仮定を課し、エンターテインメントロボットの重要な側面である追跡精度と運動の表現力が低下します。
これらの局所的に定期的な制約を緩和することにより、私たちのアプローチは追跡精度を強化するだけでなく、異なる動き間のスムーズな遷移を促進します。
さらに、移動や視線制御などの同時ベースアクティビティをサポートする学習されたRLポリシーにより、エンターテインメントロボットは、静的な事前に設計されたダンスルーチンを単に再生するのではなく、ユーザーとより動的かつインタラクティブに関与させることができます。

要約(オリジナル)

As entertainment robots gain popularity, the demand for natural and expressive motion, particularly in dancing, continues to rise. Traditionally, dancing motions have been manually designed by artists, a process that is both labor-intensive and restricted to simple motion playback, lacking the flexibility to incorporate additional tasks such as locomotion or gaze control during dancing. To overcome these challenges, we introduce Deep Fourier Mimic (DFM), a novel method that combines advanced motion representation with Reinforcement Learning (RL) to enable smooth transitions between motions while concurrently managing auxiliary tasks during dance sequences. While previous frequency domain based motion representations have successfully encoded dance motions into latent parameters, they often impose overly rigid periodic assumptions at the local level, resulting in reduced tracking accuracy and motion expressiveness, which is a critical aspect for entertainment robots. By relaxing these locally periodic constraints, our approach not only enhances tracking precision but also facilitates smooth transitions between different motions. Furthermore, the learned RL policy that supports simultaneous base activities, such as locomotion and gaze control, allows entertainment robots to engage more dynamically and interactively with users rather than merely replaying static, pre-designed dance routines.

arxiv情報

著者 Ryo Watanabe,Chenhao Li,Marco Hutter
発行日 2025-02-25 14:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DFM: Deep Fourier Mimic for Expressive Dance Motion Learning はコメントを受け付けていません

Pre-Surgical Planner for Robot-Assisted Vitreoretinal Surgery: Integrating Eye Posture, Robot Position and Insertion Point

要約

最近、眼科外科医が進行性治療の網膜下注射などの複雑な硝子体網膜処置を行うのを支援するために、いくつかのロボットフレームワークが開発されました。
これらの手術ロボットは、有望な能力を示しています。
ただし、それらのほとんどは、最大の精度を達成するために作業量を制限する必要があります。
さらに、手術顕微鏡を通して見られる可視領域は限られており、目の姿勢にのみ依存します。
目の姿勢、トロカールの位置、およびロボットの構成が正しく配置されていない場合、機器はターゲットの位置に到達しない可能性があり、準備をやり直す必要があります。
したがって、このペーパーでは、異なる患者のさまざまなターゲット領域に到達するために、目の傾斜の最適化フレームワークとロボットの配置を提案します。
私たちの方法は調整可能なファントムアイモデルで検証され、このワークフローの誤差は0.13 +/- 1.65度(y軸の周りの回転ジョイント)、-1.40 +/- 1.13 de(x軸の周り)、および1.80 +/-でした。
1.51 mm(深さ、Z)。
潜在的なエラーソースもディスカッションセクションで分析されます。

要約(オリジナル)

Several robotic frameworks have been recently developed to assist ophthalmic surgeons in performing complex vitreoretinal procedures such as subretinal injection of advanced therapeutics. These surgical robots show promising capabilities; however, most of them have to limit their working volume to achieve maximum accuracy. Moreover, the visible area seen through the surgical microscope is limited and solely depends on the eye posture. If the eye posture, trocar position, and robot configuration are not correctly arranged, the instrument may not reach the target position, and the preparation will have to be redone. Therefore, this paper proposes the optimization framework of the eye tilting and the robot positioning to reach various target areas for different patients. Our method was validated with an adjustable phantom eye model, and the error of this workflow was 0.13 +/- 1.65 deg (rotational joint around Y axis), -1.40 +/- 1.13 deg (around X axis), and 1.80 +/- 1.51 mm (depth, Z). The potential error sources are also analyzed in the discussion section.

arxiv情報

著者 Satoshi Inagaki,Alireza Alikhani,Nassir Navab,Peter C. Issa,M. Ali Nasseri
発行日 2025-02-25 14:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Pre-Surgical Planner for Robot-Assisted Vitreoretinal Surgery: Integrating Eye Posture, Robot Position and Insertion Point はコメントを受け付けていません

Stretchable Capacitive and Resistive Strain Sensors: Accessible Manufacturing Using Direct Ink Writing

要約

ロボット工学が柔らかい構造、擬人化された形状、および複雑なタスクの統合に向けて進むにつれて、柔らかくて非常に伸縮性のあるメカニクランスドゥーサーが不可欠になっています。
形状の適合性、伸縮性、適応性を確保しながら触覚と固有受容のデータを確実に測定するために、研究者は、スケーラブルで多用途の製造技術とともに多様な形質導入原理を調査しました。
それにもかかわらず、伸縮性センサーの多くの現在の方法は、単一のセンサー構成を生成するように設計されているため、設計の柔軟性が制限されます。
ここでは、カスタマイズ可能な伸縮性センサーのためのアクセス可能で柔軟な印刷ベースの製造アプローチを紹介します。
私たちの方法では、商用3Dプリンターと統合されたカスタムビルドのプリントヘッドを採用して、導電性インクの直接インクライティング(DIW)を硬化したシリコン基板に可能にします。
積み重ね可能なトレイによって促進される層ごとの製造プロセスにより、シリコンマトリックス内に複数の液体導電性インク層を堆積させることができます。
高い設計の柔軟性のための方法の能力を実証するために、容量性株と抵抗の両方のひずみセンサーの形態を製造および評価します。
実験的特性評価により、容量性ひずみセンサーが高い線形性(r^2 = 0.99)、1.0の理論的限界近くの高感度(GF = 0.95)、最小ヒステリシス(DH = 1.36%)、および大きな伸縮性(550%)があることが示されました。
文献で報告されている最先端の伸縮性ひずみセンサーに。

要約(オリジナル)

As robotics advances toward integrating soft structures, anthropomorphic shapes, and complex tasks, soft and highly stretchable mechanotransducers are becoming essential. To reliably measure tactile and proprioceptive data while ensuring shape conformability, stretchability, and adaptability, researchers have explored diverse transduction principles alongside scalable and versatile manufacturing techniques. Nonetheless, many current methods for stretchable sensors are designed to produce a single sensor configuration, thereby limiting design flexibility. Here, we present an accessible, flexible, printing-based fabrication approach for customizable, stretchable sensors. Our method employs a custom-built printhead integrated with a commercial 3D printer to enable direct ink writing (DIW) of conductive ink onto cured silicone substrates. A layer-wise fabrication process, facilitated by stackable trays, allows for the deposition of multiple liquid conductive ink layers within a silicone matrix. To demonstrate the method’s capacity for high design flexibility, we fabricate and evaluate both capacitive and resistive strain sensor morphologies. Experimental characterization showed that the capacitive strain sensor possesses high linearity (R^2 = 0.99), high sensitivity near the 1.0 theoretical limit (GF = 0.95), minimal hysteresis (DH = 1.36%), and large stretchability (550%), comparable to state-of-the-art stretchable strain sensors reported in the literature.

arxiv情報

著者 Lukas Cha,Sonja Groß,Shuai Mao,Tim Braun,Sami Haddadin,Liang He
発行日 2025-02-25 16:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Stretchable Capacitive and Resistive Strain Sensors: Accessible Manufacturing Using Direct Ink Writing はコメントを受け付けていません

Design and Control of a VTOL Aerial Vehicle Tilting its Rotors Only with Rotor Thrusts and a Passive Joint

要約

このペーパーでは、4つのローターと胴体をパッシブジョイントで接続するリンクを所有する新しいVTOL UAVを紹介し、ローターのスラストを調整することでローターの傾斜角の制御を可能にします。
このユニークな構造は、サーボモーターなどの追加のアクチュエーターを排除して、ローターの傾斜角を制御することに貢献し、UAVの重量が軽量でシンプルな構造をもたらします。
最初に、新しく設計されたUAVの動的モデルを導き出し、その制御性を分析します。
次に、UAVの攻撃角度の偏差を抑制して、空力の変化を抑制するためにUAVを加速するために、4つのローターとチルト可能なリンクをレバレッジするコントローラーを設計します。
最後に、提案された制御戦略の妥当性は、シミュレーション研究で評価されます。

要約(オリジナル)

This paper presents a novel VTOL UAV that owns a link connecting four rotors and a fuselage by a passive joint, allowing the control of the rotor’s tilting angle by adjusting the rotors’ thrust. This unique structure contributes to eliminating additional actuators, such as servo motors, to control the tilting angles of rotors, resulting in the UAV’s weight lighter and simpler structure. We first derive the dynamical model of the newly designed UAV and analyze its controllability. Then, we design the controller that leverages the tiltable link with four rotors to accelerate the UAV while suppressing a deviation of the UAV’s angle of attack from the desired value to restrain the change of the aerodynamic force. Finally, the validity of the proposed control strategy is evaluated in simulation study.

arxiv情報

著者 Takumi Ito,Riku Funada,Mitsuji Sampei
発行日 2025-02-25 16:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Design and Control of a VTOL Aerial Vehicle Tilting its Rotors Only with Rotor Thrusts and a Passive Joint はコメントを受け付けていません

VL-TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments

要約

人間中心の環境での実際の地図のない屋外ナビゲーションのためのマルチモーダル軌道生成と選択アルゴリズムを提示します。
このような環境には、横断歩道、草、縁石などの豊富な機能が含まれており、人間は簡単に解釈できますが、モバイルロボットではありません。
(1)環境固有の通過性の制約を満たし、(2)横断歩道、歩道などをナビゲートしながら人間のような経路を生成する適切な軌跡を計算することを目指しています。
グローバルナビゲーションの複数の候補の軌跡を生成するための制約。
視覚的なプロンプトアプローチを開発し、視覚言語モデル(VLM)のセマンティック理解と論理的推論のゼロショット能力を活用して、タスクに関するコンテキスト情報を考慮して最適な軌跡を選択します。
車輪付きロボットを使用したさまざまな屋外シーンでの方法を評価し、パフォーマンスを他のグローバルナビゲーションアルゴリズムと比較します。
実際には、4つの異なる屋外ナビゲーションシナリオでの人間のようなナビゲーションの観点から、満たす可能性のある制約において20.81%の平均改善が観察されています。

要約(オリジナル)

We present a multi-modal trajectory generation and selection algorithm for real-world mapless outdoor navigation in human-centered environments. Such environments contain rich features like crosswalks, grass, and curbs, which are easily interpretable by humans, but not by mobile robots. We aim to compute suitable trajectories that (1) satisfy the environment-specific traversability constraints and (2) generate human-like paths while navigating on crosswalks, sidewalks, etc. Our formulation uses a Conditional Variational Autoencoder (CVAE) generative model enhanced with traversability constraints to generate multiple candidate trajectories for global navigation. We develop a visual prompting approach and leverage the Visual Language Model’s (VLM) zero-shot ability of semantic understanding and logical reasoning to choose the best trajectory given the contextual information about the task. We evaluate our method in various outdoor scenes with wheeled robots and compare the performance with other global navigation algorithms. In practice, we observe an average improvement of 20.81% in satisfying traversability constraints and 28.51% in terms of human-like navigation in four different outdoor navigation scenarios.

arxiv情報

著者 Daeun Song,Jing Liang,Xuesu Xiao,Dinesh Manocha
発行日 2025-02-25 17:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VL-TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments はコメントを受け付けていません

Retrieval Dexterity: Efficient Object Retrieval in Clutters with Dexterous Hand

要約

複数のオブジェクトの下に埋もれたオブジェクトを取得することは、挑戦的であるだけでなく、時間がかかります。
このような環境で操作を実行すると、複雑な接触関係により大きな困難があります。
既存のメソッドは通常、各閉塞オブジェクトを順番に把握および削除し、実行時間が長くなり、すべてのオクルードオブジェクトに非実用的な把握能力を必要とすることにより、このタスクに対処します。
このホワイトペーパーでは、マルチオブジェクト積み上げ環境で効率的なオブジェクト検索のための器用なアームハンドシステムを紹介します。
当社のアプローチは、多様で慎重に設計された乱雑な環境内で大規模な並列強化学習を活用して、ポリシーを訓練します。
これらのポリシーは、ターゲットオブジェクトの十分な表面積を露出させるためにオブジェクトを効率的にクリアするオブジェクトを効率的にクリアする緊急の操作スキル(たとえば、プッシュ、攪拌、突起)を示しています。
多様なクラッター構成で10を超える家庭用オブジェクトのセットで広範な評価を実施し、訓練されたオブジェクトと目に見えないオブジェクトの両方で優れた検索性能と効率性を示しています。
さらに、学習したポリシーは、実際のマルチフィンガーロボットシステムに実質的な適用性を検証し、実際の適用性を検証することに成功しました。
ビデオは、プロジェクトWebサイトhttps://changwinde.github.io/retrdexにあります。

要約(オリジナル)

Retrieving objects buried beneath multiple objects is not only challenging but also time-consuming. Performing manipulation in such environments presents significant difficulty due to complex contact relationships. Existing methods typically address this task by sequentially grasping and removing each occluding object, resulting in lengthy execution times and requiring impractical grasping capabilities for every occluding object. In this paper, we present a dexterous arm-hand system for efficient object retrieval in multi-object stacked environments. Our approach leverages large-scale parallel reinforcement learning within diverse and carefully designed cluttered environments to train policies. These policies demonstrate emergent manipulation skills (e.g., pushing, stirring, and poking) that efficiently clear occluding objects to expose sufficient surface area of the target object. We conduct extensive evaluations across a set of over 10 household objects in diverse clutter configurations, demonstrating superior retrieval performance and efficiency for both trained and unseen objects. Furthermore, we successfully transfer the learned policies to a real-world dexterous multi-fingered robot system, validating their practical applicability in real-world scenarios. Videos can be found on our project website https://ChangWinde.github.io/RetrDex.

arxiv情報

著者 Fengshuo Bai,Yu Li,Jie Chu,Tawei Chou,Runchuan Zhu,Ying Wen,Yaodong Yang,Yuanpei Chen
発行日 2025-02-25 18:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Retrieval Dexterity: Efficient Object Retrieval in Clutters with Dexterous Hand はコメントを受け付けていません

CRESSim-MPM: A Material Point Method Library for Surgical Soft Body Simulation with Cutting and Suturing

要約

最近の多くの研究では、手術援助のための合成データを使用した機械学習(ML)エージェントまたはモデルを訓練するための外科シミュレーションプラットフォームの開発に焦点を当てています。
既存のプラットフォームは、剛体の操作や柔らかい身体の変形などのタスクに優れていますが、切断や縫合などのより複雑なソフトボディの行動をシミュレートするのに苦労しています。
重要な課題は、現在のプラットフォームで主要なアプローチである有限要素法(FEM)を使用して、軟体骨折のモデリングと分割にあります。
さらに、柔らかいボディ内の双方向縫合針/糸の接触は、FEMを使用するとさらに複雑になります。
この作業では、このような挑戦的なシミュレーションにはマテリアルポイント法(MPM)を使用し、それらのために特別に設計された新しい剛性幾何学とソフトリジッドの連絡方法を提案します。
複数のMPMソルバーを統合し、切断および縫合用の外科的幾何学を組み込んだGPUアクセラレーションのMPMライブラリであるCressim-MPMを導入し、外科用途向けの専門の物理エンジンとして機能します。
さらにユニティに統合されており、ソフトボディシミュレーションのために既存のプロジェクトを最小限に抑える必要があります。
軟部組織の切断と縫合のリアルタイムシミュレーションにおけるシミュレーターの機能を実証し、さまざまな数の粒子をシミュレートするときに、異なるMPMソルバーの初期パフォーマンス評価を提供します。

要約(オリジナル)

A number of recent studies have focused on developing surgical simulation platforms to train machine learning (ML) agents or models with synthetic data for surgical assistance. While existing platforms excel at tasks such as rigid body manipulation and soft body deformation, they struggle to simulate more complex soft body behaviors like cutting and suturing. A key challenge lies in modeling soft body fracture and splitting using the finite-element method (FEM), which is the predominant approach in current platforms. Additionally, the two-way suture needle/thread contact inside a soft body is further complicated when using FEM. In this work, we use the material point method (MPM) for such challenging simulations and propose new rigid geometries and soft-rigid contact methods specifically designed for them. We introduce CRESSim-MPM, a GPU-accelerated MPM library that integrates multiple MPM solvers and incorporates surgical geometries for cutting and suturing, serving as a specialized physics engine for surgical applications. It is further integrated into Unity, requiring minimal modifications to existing projects for soft body simulation. We demonstrate the simulator’s capabilities in real-time simulation of cutting and suturing on soft tissue and provide an initial performance evaluation of different MPM solvers when simulating varying numbers of particles.

arxiv情報

著者 Yafei Ou,Mahdi Tavakoli
発行日 2025-02-25 18:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CRESSim-MPM: A Material Point Method Library for Surgical Soft Body Simulation with Cutting and Suturing はコメントを受け付けていません

Global-Decision-Focused Neural ODEs for Proactive Grid Resilience Management

要約

山火事やハリケーンなどの極端なハザードイベントが電力システムをますます脅かし、広範な停止を引き起こし、重要なサービスを混乱させます。
最近、Predict-Then-Optimizeアプローチは、システム機能の予測が最初に生成され、その後ダウンストリームの意思決定の入力として使用されるグリッド操作で牽引力を獲得しました。
ただし、この2段階の方法は、多くの場合、予測と最適化の目的との間に誤った整列をもたらし、最適ではないリソース割り当てにつながります。
これに対処するために、停止予測をグローバルに最適化された介入と統合するフレームワークである、すべてをglobally(patog)に予測することを提案します。
その中核では、当社のグローバル決定に焦点を当てた(GDF)ニューラルODEモデルは、意思決定に対応する方法でレジリエンス戦略を最適化しながら、停止ダイナミクスをキャプチャします。
従来の方法とは異なり、私たちのアプローチは空間的および一時的に一貫した意思決定を保証し、予測精度と運用効率の両方を改善します。
合成および実世界のデータセットの実験は、停止予測の一貫性とグリッドの回復力の大幅な改善を示しています。

要約(オリジナル)

Extreme hazard events such as wildfires and hurricanes increasingly threaten power systems, causing widespread outages and disrupting critical services. Recently, predict-then-optimize approaches have gained traction in grid operations, where system functionality forecasts are first generated and then used as inputs for downstream decision-making. However, this two-stage method often results in a misalignment between prediction and optimization objectives, leading to suboptimal resource allocation. To address this, we propose predict-all-then-optimize-globally (PATOG), a framework that integrates outage prediction with globally optimized interventions. At its core, our global-decision-focused (GDF) neural ODE model captures outage dynamics while optimizing resilience strategies in a decision-aware manner. Unlike conventional methods, our approach ensures spatially and temporally coherent decision-making, improving both predictive accuracy and operational efficiency. Experiments on synthetic and real-world datasets demonstrate significant improvements in outage prediction consistency and grid resilience.

arxiv情報

著者 Shuyi Chen,Ferdinando Fioretto,Feng Qiu,Shixiang Zhu
発行日 2025-02-25 16:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Global-Decision-Focused Neural ODEs for Proactive Grid Resilience Management はコメントを受け付けていません

Accelerated Training on Low-Power Edge Devices

要約

これらのデバイスは一般に、特に電力の観点からはリソースが制約しているため、エッジデバイスでのトレーニングはいくつかの課題をもたらします。
デバイスレベルでの最先端の技術は、GPU周波数を減らして電力制約を強制し、トレーニング時間の大幅な増加につながります。
トレーニングを加速するために、デバイスの電源制約を順守しながら、システムとアプリケーションのパラメーター(この場合はGPU頻度とトレーニングタスクのバッチサイズ)を共同で調整することを提案します。
バッチサイズの効率とデバイスプロファイリングの予測を組み合わせて、望ましい最適化を実現する新しい透明な方法論を紹介します。
実際のハードウェアでの評価は、私たちの方法が最新技術に依存する現在のベースラインよりも優れていることを示しており、トレーニング時間を2.4 \ Times $を削減し、結果は非常に近い結果です。
また、測定は、トレーニングプロセスに使用される全体的なエネルギーの大幅な減少を示しています。
これらの利益は、訓練されたモデルのパフォーマンスを減らすことなく達成されます。

要約(オリジナル)

Training on edge devices poses several challenges as these devices are generally resource-constrained, especially in terms of power. State-of-the-art techniques at the device level reduce the GPU frequency to enforce power constraints, leading to a significant increase in training time. To accelerate training, we propose to jointly adjust the system and application parameters (in our case, the GPU frequency and the batch size of the training task) while adhering to the power constraints on devices. We introduce a novel cross-layer methodology that combines predictions of batch size efficiency and device profiling to achieve the desired optimization. Our evaluation on real hardware shows that our method outperforms the current baselines that depend on state of the art techniques, reducing the training time by $2.4\times$ with results very close to optimal. Our measurements also indicate a substantial reduction in the overall energy used for the training process. These gains are achieved without reduction in the performance of the trained model.

arxiv情報

著者 Mohamed Aboelenien Ahmed,Kilian Pfeiffer,Heba Khdr,Osama Abboud,Ramin Khalili,Jörg Henkel
発行日 2025-02-25 16:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.OS | Accelerated Training on Low-Power Edge Devices はコメントを受け付けていません

Structural Alignment Improves Graph Test-Time Adaptation

要約

グラフベースの学習は、基礎となる相互作用パターンを効果的にキャプチャすることにより、推奨から詐欺検出や粒子物理学に至るまで、ドメインで顕著な成功を収めています。
ただし、特にネットワーク接続または相互作用パターンの変化が含まれる分布シフトが発生する場合、一般化するのに苦労することがよくあります。
このようなシフトを軽減するように設計された既存のアプローチは、通常、ソースデータへの完全なアクセスを伴う再トレーニングを必要とし、厳格な計算またはプライバシーの制約の下でそれらを実行不可能にします。
この制限に対処するために、ソースドメインを再検討せずに推論中にグラフ構造を整列させる新しい方法である、グラフテスト時間適応(GTTA)のテスト時間構造アライメント(TSA)アルゴリズムを提案します。
グラフデータ分布シフトの理論的に接地された処理に基づいて構築されたTSAは、3つの重要な戦略を統合します。構造シフトに対応する不確実性に対応する近隣の重み、セルフノードの適応バランス、およびノー​​ド表現のシグナルから駆動される近傍凝集表現
ノイズ比、および残りのラベルと機能のシフトを修正する決定境界の改良。
合成および現実世界のデータセットに関する広範な実験は、TSAが非グラフTTAメソッドと最先端のGTTAベースラインの両方を一貫して上回ることができることを示しています。

要約(オリジナル)

Graph-based learning has achieved remarkable success in domains ranging from recommendation to fraud detection and particle physics by effectively capturing underlying interaction patterns. However, it often struggles to generalize when distribution shifts occur, particularly those involving changes in network connectivity or interaction patterns. Existing approaches designed to mitigate such shifts typically require retraining with full access to source data, rendering them infeasible under strict computational or privacy constraints. To address this limitation, we propose a test-time structural alignment (TSA) algorithm for Graph Test-Time Adaptation (GTTA), a novel method that aligns graph structures during inference without revisiting the source domain. Built upon a theoretically grounded treatment of graph data distribution shifts, TSA integrates three key strategies: an uncertainty-aware neighborhood weighting that accommodates structure shifts, an adaptive balancing of self-node and neighborhood-aggregated representations driven by node representations’ signal-to-noise ratio, and a decision boundary refinement that corrects remaining label and feature shifts. Extensive experiments on synthetic and real-world datasets demonstrate that TSA can consistently outperform both non-graph TTA methods and state-of-the-art GTTA baselines.

arxiv情報

著者 Hans Hao-Hsun Hsu,Shikun Liu,Han Zhao,Pan Li
発行日 2025-02-25 16:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Structural Alignment Improves Graph Test-Time Adaptation はコメントを受け付けていません