Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

要約

軌跡の自己回帰モデリングに基づいて構築された新しいVisuo-MotorポリシーパラダイムであるChain-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-of-motorのパラダイムを紹介します。
次のステップアクションを前進させる従来のアプローチとは異なり、COAは、アクションレベルのチェーンオブサベート(COT)プロセスを通じて、タスク固有の目標を持つ明示的な逆方向の推論により軌道全体を生成します。
このプロセスは、単一の自己回帰構造内で統一されています。(1)最初のトークンは、タスク固有の目標をコードする安定したキーフレームアクションに対応します。
(2)その後のアクショントークンは、最初のキーフレームに条件付けられ、以前に予測されたアクションを条件付けして、自動網目上生成されます。
この後方アクション推論により、グローバルからローカルへの構造が実施され、各ローカルアクションが最終目標によって厳密に制約されるようになります。
アクション推論構造をさらに実現するために、COAには4つの補完的な設計が組み込まれています。連続アクショントークン表現。
可変長軌道生成の動的停止。
逆時間アンサンブル;
アクションチャンクモデリングとグローバル構造のバランスを取るためのマルチトークン予測。
その結果、COAは視覚運動ポリシーの柔軟性とシンプルさを維持しながら、強力な空間一般化能力を提供します。
経験的には、COAが60のRLBenchタスクと8つの実際の操作タスクで最先端のパフォーマンスを達成することを観察します。

要約(オリジナル)

We present Chain-of-Action (CoA), a novel visuo-motor policy paradigm built upon Trajectory Autoregressive Modeling. Unlike conventional approaches that predict next step action(s) forward, CoA generates an entire trajectory by explicit backward reasoning with task-specific goals through an action-level Chain-of-Thought (CoT) process. This process is unified within a single autoregressive structure: (1) the first token corresponds to a stable keyframe action that encodes the task-specific goals; and (2) subsequent action tokens are generated autoregressively, conditioned on the initial keyframe and previously predicted actions. This backward action reasoning enforces a global-to-local structure, allowing each local action to be tightly constrained by the final goal. To further realize the action reasoning structure, CoA incorporates four complementary designs: continuous action token representation; dynamic stopping for variable-length trajectory generation; reverse temporal ensemble; and multi-token prediction to balance action chunk modeling with global structure. As a result, CoA gives strong spatial generalization capabilities while preserving the flexibility and simplicity of a visuo-motor policy. Empirically, we observe CoA achieves the state-of-the-art performance across 60 RLBench tasks and 8 real-world manipulation tasks.

arxiv情報

著者 Wenbo Zhang,Tianrun Hu,Yanyuan Qiao,Hanbo Zhang,Yuchu Qin,Yang Li,Jiajun Liu,Tao Kong,Lingqiao Liu,Xiao Ma
発行日 2025-06-11 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation はコメントを受け付けていません

Text-Aware Image Restoration with Diffusion Models

要約

画像修復は、劣化した画像を回復することを目的としています。
しかし、既存の拡散ベースの修復方法は、自然画像の修復に大きな成功にもかかわらず、劣化した画像のテキスト領域を忠実に再構築するのに苦労します。
これらの方法は、頻繁にもっともらしいが誤ったテキストのようなパターンを生成します。これは、テキストイメージの幻覚と呼ばれる現象です。
このホワイトペーパーでは、視覚的内容とテキストの忠実度の同時回復を必要とする新しい修復タスクである、テキスト認識画像修復(TAIR)を紹介します。
このタスクに取り組むために、SA-Textを提示します。SA-Textは、多様で複雑なテキストインスタンスで密に注釈が付けられた100K高品質のシーン画像の大規模なベンチマークです。
さらに、Terediffと呼ばれるマルチタスク拡散フレームワークを提案し、拡散モデルの内部機能をテキストスポッティングモジュールに統合し、両方のコンポーネントが共同トレーニングから利益を得ることができます。
これにより、豊富なテキスト表現が抽出され、その後の除去ステップでプロンプトとして利用されます。
広範な実験は、私たちのアプローチが一貫して最先端の修復方法を上回り、テキスト認識の精度を大幅に獲得することを示しています。
プロジェクトページをご覧ください:https://cvlab-kaist.github.io/tair/

要約(オリジナル)

Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/

arxiv情報

著者 Jaewon Min,Jin Hyeon Kim,Paul Hyunbin Cho,Jaeeun Lee,Jihye Park,Minkyu Park,Sangpil Kim,Hyunhee Park,Seungryong Kim
発行日 2025-06-11 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Text-Aware Image Restoration with Diffusion Models はコメントを受け付けていません

PlayerOne: Egocentric World Simulator

要約

鮮明に動的な環境内で没入型と無制限の探索を促進する、最初のエゴセントリックリアルな世界シミュレーターであるPlayerOneを紹介します。
ユーザーからのエゴセントリックシーン画像を考えると、PlayerOneは対応する世界を正確に構築し、エキソセントリックカメラによってキャプチャされたユーザーの実際のシーンの人間の動きと厳密に整合するエゴセントリックビデオを生成できます。
PlayerOneは、粗いレベルのエゴセントリックな理解のために最初に大規模なエゴセントリックなテキストビデオペアで最初に事前に導入する粗からファインのパイプラインで訓練され、その後、自動構造ピペリンを備えたエゴセントリックエキスコンセントリックビデオデータセットから抽出された同期モーションビデオデータで抽出されます。
その上、さまざまなコンポーネントのさまざまな重要性を考慮して、部品レベルの動きを正確に制御できるように、部分的に延期された動き噴射スキームを設計します。
さらに、4Dシーンとビデオフレームの両方を徐々にモデル化する共同再構成フレームワークを考案し、長期のビデオ生成のシーンの一貫性を確保します。
実験結果は、さまざまな人間の動きの正確な制御と、多様なシナリオの世界的なモデリングにおけるその大きな一般化能力を示しています。
エゴセントリックの実世界のシミュレーションへの最初の努力をマークし、コミュニティが世界モデリングの新鮮なフロンティアとその多様なアプリケーションを掘り下げる方法を開くことができます。

要約(オリジナル)

We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.

arxiv情報

著者 Yuanpeng Tu,Hao Luo,Xi Chen,Xiang Bai,Fan Wang,Hengshuang Zhao
発行日 2025-06-11 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PlayerOne: Egocentric World Simulator はコメントを受け付けていません

DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos

要約

変形可能なガウススプラット大きな再構成モデ​​ル(DGS-LRM)を紹介します。これは、ダイナミックシーンの単眼のポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード方法です。
フィードフォワードシーンの再構成は、現実世界の環境のデジタルレプリカを迅速に作成できる能力について大きな注目を集めています。
ただし、ほとんどの既存のモデルは静的シーンに限定されており、移動オブジェクトの動きを再構築できません。
動的シーンの再構築のためのフィードフォワードモデルの開発は、トレーニングデータの希少性や適切な3D表現とトレーニングパラダイムの必要性など、大きな課題をもたらします。
これらの課題に対処するために、いくつかの重要な技術的貢献を紹介します。グラウンドトゥルースマルチビュービデオと密な3Dシーンフロー監督を備えた強化された大規模な合成データセット。
学習しやすく、高品質の動的ビュー合成をサポートし、長距離3D追跡を可能にするピクセルあたりの変形可能な3Dガウス表現。
リアルタイムで一般化可能な動的シーンの再構築を実現する大規模なトランスネットワーク。
広範な定性的および定量的実験は、DGS-LRMが最適化ベースの方法に匹敵する動的シーンの再構成品質を達成し、現実世界の例で最先端の予測動的再構成方法を大幅に上回ることを示しています。
その予測される物理的に接地された3D変形は正確であり、長距離3D追跡タスクに容易に適応でき、最先端の単眼ビデオ3D追跡方法と同等のパフォーマンスを実現できます。

要約(オリジナル)

We introduce the Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM), the first feed-forward method predicting deformable 3D Gaussian splats from a monocular posed video of any dynamic scene. Feed-forward scene reconstruction has gained significant attention for its ability to rapidly create digital replicas of real-world environments. However, most existing models are limited to static scenes and fail to reconstruct the motion of moving objects. Developing a feed-forward model for dynamic scene reconstruction poses significant challenges, including the scarcity of training data and the need for appropriate 3D representations and training paradigms. To address these challenges, we introduce several key technical contributions: an enhanced large-scale synthetic dataset with ground-truth multi-view videos and dense 3D scene flow supervision; a per-pixel deformable 3D Gaussian representation that is easy to learn, supports high-quality dynamic view synthesis, and enables long-range 3D tracking; and a large transformer network that achieves real-time, generalizable dynamic scene reconstruction. Extensive qualitative and quantitative experiments demonstrate that DGS-LRM achieves dynamic scene reconstruction quality comparable to optimization-based methods, while significantly outperforming the state-of-the-art predictive dynamic reconstruction method on real-world examples. Its predicted physically grounded 3D deformation is accurate and can readily adapt for long-range 3D tracking tasks, achieving performance on par with state-of-the-art monocular video 3D tracking methods.

arxiv情報

著者 Chieh Hubert Lin,Zhaoyang Lv,Songyin Wu,Zhen Xu,Thu Nguyen-Phuoc,Hung-Yu Tseng,Julian Straub,Numair Khan,Lei Xiao,Ming-Hsuan Yang,Yuheng Ren,Richard Newcombe,Zhao Dong,Zhengqin Li
発行日 2025-06-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos はコメントを受け付けていません

TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

要約

ビジョン言語アクション(VLA)モデルの最近の進歩により、大規模なデータセットで事前に処理されると、多様なシーン、タスク、ロボットプラットフォームにわたって強力な一般化機能が実証されています。
ただし、これらのモデルは、新しい環境でタスク固有の微調整を依然として必要とします。これは、静的軌道データセットを使用して、監視された微調整(SFT)にほぼ依存するプロセスです。
このようなアプローチは、ロボットが環境と対話することも、ライブ実行からのフィードバックを活用することもできません。
また、彼らの成功は、収集された軌跡のサイズと品質に大きく依存しています。
Rehnection Learning(RL)は、閉ループの相互作用を有効にし、学習ポリシーをタスクの目的と直接調整することにより、有望な代替手段を提供します。
この作業では、GRPOのアイデアからインスピレーションを得て、軌道ごとのグループ相対ポリシー最適化(TGRPO)メソッドを提案します。
ステップレベルと軌道レベルのアドバンテージシグナルを融合させることにより、この方法によりGRPOのグループレベルのアドバンテージ推定が改善され、これによりアルゴリズムがVLAのオンライン強化学習トレーニングにより適しています。
Libero-Objectベンチマークからの10の操作タスクの実験結果は、TGRPOが一貫してさまざまなベースラインメソッドを上回ることを示しています。
ソースコードは、https://github.com/hahans/tgrpoで入手できます

要約(オリジナル)

Recent advances in Vision-Language-Action (VLA) model have demonstrated strong generalization capabilities across diverse scenes, tasks, and robotic platforms when pretrained at large-scale datasets. However, these models still require task-specific fine-tuning in novel environments, a process that relies almost exclusively on supervised fine-tuning (SFT) using static trajectory datasets. Such approaches neither allow robot to interact with environment nor do they leverage feedback from live execution. Also, their success is critically dependent on the size and quality of the collected trajectories. Reinforcement learning (RL) offers a promising alternative by enabling closed-loop interaction and aligning learned policies directly with task objectives. In this work, we draw inspiration from the ideas of GRPO and propose the Trajectory-wise Group Relative Policy Optimization (TGRPO) method. By fusing step-level and trajectory-level advantage signals, this method improves GRPO’s group-level advantage estimation, thereby making the algorithm more suitable for online reinforcement learning training of VLA. Experimental results on ten manipulation tasks from the libero-object benchmark demonstrate that TGRPO consistently outperforms various baseline methods, capable of generating more robust and efficient policies across multiple tested scenarios. Our source codes are available at: https://github.com/hahans/TGRPO

arxiv情報

著者 Zengjue Chen,Runliang Niu,He Kong,Qi Wang
発行日 2025-06-11 04:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization はコメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

要約

大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を示していますが、実際の物理的現象の理解には、物理​​的な認識が根本的に欠けています。
この作業では、ドップラー効果、マルチパス効果、空間的関係などの基本的な物理現象に焦点を当てた音を通してLLMSの物理的認識を教えるフレームワークであるAcornを提示します。
データ不足を克服するために、Acornは、実際の音源と制御された物理チャネルを組み合わせた物理ベースのシミュレーターを導入して、多様なトレーニングデータを生成します。
このシミュレーターを使用して、包括的なオーディオ質問アンウェーデータセットであるAQA-PHYを構築し、マグニチュード情報とフェーズ情報の両方を処理するオーディオエンコーダーを提案します。
オーディオエンコーダーを最先端のLLMSに接続することにより、見通しの検出、ドップラー効果の推定、到着方向の推定など、シミュレーションと現実世界の両方のタスクで合理的な結果を示し、LLMSが物理的な世界を理解する方法を開明します。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in text and multimodal processing, yet they fundamentally lack physical awareness–understanding of real-world physical phenomena. In this work, we present ACORN, a framework that teaches LLMs physical awareness through sound, focusing on fundamental physical phenomena like the Doppler effect, multipath effect, and spatial relationships. To overcome data scarcity, ACORN introduce a physics-based simulator combining real-world sound sources with controlled physical channels to generate diverse training data. Using this simulator, we build AQA-PHY, a comprehensive Audio Question-Answer dataset, and propose an audio encoder that processes both magnitude and phase information. By connecting our audio encoder to state-of-the-art LLMs, we demonstrate reasonable results in both simulated and real-world tasks, such as line-of-sight detection, Doppler effect estimation, and Direction-of-Arrival estimation, paving the way for enabling LLMs to understand physical world.

arxiv情報

著者 Weiguo Wang,Andy Nie,Wenrui Zhou,Yi Kai,Chengchen Hu
発行日 2025-06-11 05:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | Teaching Physical Awareness to LLMs through Sounds はコメントを受け付けていません

Through a Steerable Lens: Magnifying Neural Network Interpretability via Phase-Based Extrapolation

要約

深いニューラルネットワークの内部表現と決定メカニズムを理解することは、依然として重要なオープンな課題です。
既存の解釈可能性方法は、影響力のある入力領域を識別することがよくありますが、モデルがクラスをどのように区別するか、または特定の変更があるカテゴリから別のカテゴリにどのような入力を移行するかを解明しない場合があります。
これらの制限に対処するために、ネットワーク勾配を無限の動きの形として扱うことにより、クラス間の暗黙のパスを視覚化する新しいフレームワークを提案します。
位相ベースの動きの倍率からインスピレーションを得て、最初に変換可能な変換を使用して画像を分解します。
勾配を完全に統合してフルパスをトレースするのではなく、ワンステップ勾配を入力に増幅し、線形外挿を実行して、モデルがソースからターゲットクラスにどのように移動するかを露出させます。
操縦可能なピラミッドドメインで動作することにより、これらの増幅された勾配は、分類器の最も敏感な方向を強調する、意味的に意味のある空間的にコヒーレントなモーフを生成し、決定境界のジオメトリに関する洞察を与えます。
合成データセットと現実世界の両方のデータセットの実験は、私たちの位相に焦点を当てた外挿が知覚的に整列した意味的に意味のある変換をもたらし、神経分類器の内部表現に斬新で解釈可能なレンズを提供することを示しています。

要約(オリジナル)

Understanding the internal representations and decision mechanisms of deep neural networks remains a critical open challenge. While existing interpretability methods often identify influential input regions, they may not elucidate how a model distinguishes between classes or what specific changes would transition an input from one category to another. To address these limitations, we propose a novel framework that visualizes the implicit path between classes by treating the network gradient as a form of infinitesimal motion. Drawing inspiration from phase-based motion magnification, we first decompose images using invertible transforms-specifically the Complex Steerable Pyramid-then compute class-conditional gradients in the transformed space. Rather than iteratively integrating the gradient to trace a full path, we amplify the one-step gradient to the input and perform a linear extrapolation to expose how the model moves from source to target class. By operating in the steerable pyramid domain, these amplified gradients produce semantically meaningful, spatially coherent morphs that highlight the classifier’s most sensitive directions, giving insight into the geometry of its decision boundaries. Experiments on both synthetic and real-world datasets demonstrate that our phase-focused extrapolation yields perceptually aligned, semantically meaningful transformations, offering a novel, interpretable lens into neural classifiers’ internal representations.

arxiv情報

著者 Farzaneh Mahdisoltani,Saeed Mahdisoltani,Roger B. Grosse,David J. Fleet
発行日 2025-06-11 06:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Through a Steerable Lens: Magnifying Neural Network Interpretability via Phase-Based Extrapolation はコメントを受け付けていません

On Finetuning Tabular Foundation Models

要約

基礎モデルは、表形式の深い学習における新たな研究方向です。
特に、TABPFNV2は最近、モデルパラメーターをターゲットデータセットに適応させないコンテキスト学習パラダイムを使用して、小規模データセットで従来のGBDTベースの方法よりも優れたパフォーマンスを主張しました。
ただし、表形式の基礎モデルを適応させるための最適な微調整アプローチ、およびこの適応が内部メカニズムをどのように再形成するかは、露出度が低いままです。
以前の作品は以前の基礎モデルの微調整を研究しましたが、一貫性のない調査結果とTabpFNV2のユニークなアーキテクチャは、新たな調査を必要とします。
これらの質問に対処するために、最初に多様なデータセットでさまざまな微調整戦略を体系的に評価します。
私たちの調査結果は、時間効率と有効性の観点からTABPFNV2の最も実用的なソリューションとして完全な微調整を確立しています。
次に、FinetuningがTabpfnv2の内部メカニズムをどのように変化させ、検索モデルに類似しているかを調査します。
微調整の成功は、勾配ベースの適応後、テストオブジェクトのクエリ表現のDOT積と、コンテキスト内トレーニングオブジェクトのキー表現がターゲットの類似性をより正確に反映しているという事実に由来することを明らかにします。
これにより類似性が改善されると、Finetuned TabpFNV2は、関連するコンテキスト内サンプルを適切に重み付けし、検索ベースの予測ロジックを改善することにより、ターゲット依存性をより適切に近似できます。
実用的な観点から、最大50Kオブジェクトを持つデータセットでTabpfnv2を獲得することができ、ほぼすべてのタスクでパフォーマンスの改善を観察しました。
より正確には、I.I.D。を使用したアカデミックデータセットについて
スプリット、Finetuningを使用すると、Tabpfnv2は最先端の結果を達成できますが、段階的な時間的シフトとリッチ機能セットを備えたデータセットでは、TabpFNV2は安定性が低く、以前の方法はより良くなります。

要約(オリジナル)

Foundation models are an emerging research direction in tabular deep learning. Notably, TabPFNv2 recently claimed superior performance over traditional GBDT-based methods on small-scale datasets using an in-context learning paradigm, which does not adapt model parameters to target datasets. However, the optimal finetuning approach for adapting tabular foundational models, and how this adaptation reshapes their internal mechanisms, remains underexplored. While prior works studied finetuning for earlier foundational models, inconsistent findings and TabPFNv2’s unique architecture necessitate fresh investigation. To address these questions, we first systematically evaluate various finetuning strategies on diverse datasets. Our findings establish full finetuning as the most practical solution for TabPFNv2 in terms of time-efficiency and effectiveness. We then investigate how finetuning alters TabPFNv2’s inner mechanisms, drawing an analogy to retrieval-augmented models. We reveal that the success of finetuning stems from the fact that after gradient-based adaptation, the dot products of the query-representations of test objects and the key-representations of in-context training objects more accurately reflect their target similarity. This improved similarity allows finetuned TabPFNv2 to better approximate target dependency by appropriately weighting relevant in-context samples, improving the retrieval-based prediction logic. From the practical perspective, we managed to finetune TabPFNv2 on datasets with up to 50K objects, observing performance improvements on almost all tasks. More precisely, on academic datasets with I.I.D. splits, finetuning allows TabPFNv2 to achieve state-of-the-art results, while on datasets with gradual temporal shifts and rich feature sets, TabPFNv2 is less stable and prior methods remain better.

arxiv情報

著者 Ivan Rubachev,Akim Kotelnikov,Nikolay Kartashev,Artem Babenko
発行日 2025-06-11 09:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On Finetuning Tabular Foundation Models はコメントを受け付けていません

Robust Distributed Estimation: Extending Gossip Algorithms to Ranking and Trimmed Means

要約

この論文では、任意の通信グラフ上のゴシップアルゴリズムの堅牢な推定の問題に対処します。
ゴシップアルゴリズムは完全に分散化されており、地元の隣人から隣人のコミュニケーションにのみ依存しているため、コミュニケーションが制約されている状況に適しています。
既存の平均ベースのゴシップアルゴリズムの基本的な課題は、悪意のあるノードまたは破損したノードに対する脆弱性です。
この論文では、堅牢な統計をグローバルに推定することにより、外れ値の頑丈な平均を計算できることを示します。
より具体的には、\ textsc {gorank}と呼ばれるランク推定のための新しいゴシップアルゴリズムを提案し、それを活用して、\ textsc {gotrim}を作成した平均推定をトリミングしたゴシップ手順を設計します。
提案された方法の詳細な説明に加えて、私たちの作業の重要な貢献は正確な収束分析です。ランク推定のために$ \ mathcal {o}(1/t)$レートを確立します。
さらに、\ textsc {gotrim}の分解点分析を提供します。
多様なネットワークトポロジ、データ分布、汚染スキームに関する実験を通じて、理論的結果を経験的に検証します。

要約(オリジナル)

This paper addresses the problem of robust estimation in gossip algorithms over arbitrary communication graphs. Gossip algorithms are fully decentralized, relying only on local neighbor-to-neighbor communication, making them well-suited for situations where communication is constrained. A fundamental challenge in existing mean-based gossip algorithms is their vulnerability to malicious or corrupted nodes. In this paper, we show that an outlier-robust mean can be computed by globally estimating a robust statistic. More specifically, we propose a novel gossip algorithm for rank estimation, referred to as \textsc{GoRank}, and leverage it to design a gossip procedure dedicated to trimmed mean estimation, coined \textsc{GoTrim}. In addition to a detailed description of the proposed methods, a key contribution of our work is a precise convergence analysis: we establish an $\mathcal{O}(1/t)$ rate for rank estimation and an $\mathcal{O}((\log t)/\sqrt{t})$ rate for trimmed mean estimation, where by $t$ is meant the number of iterations. Moreover, we provide a breakdown point analysis of \textsc{GoTrim}. We empirically validate our theoretical results through experiments on diverse network topologies, data distributions and contamination schemes.

arxiv情報

著者 Anna Van Elst,Igor Colin,Stephan Clémençon
発行日 2025-06-11 09:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ML | Robust Distributed Estimation: Extending Gossip Algorithms to Ranking and Trimmed Means はコメントを受け付けていません

Pruning Spurious Subgraphs for Graph Out-of-Distribtuion Generalization

要約

グラフニューラルネットワーク(GNNS)は、トレーニングとテストデータの間の分布シフトで大幅なパフォーマンスの劣化に遭遇し、実際のシナリオでの適用性を妨げます。
最近の研究では、分散除外一般化の課題に対処するためのさまざまな方法が提案されており、グラフドメイン内の多くの方法がターゲットラベルを予測する不変サブグラフを直接識別することに焦点を当てています。
ただし、特にいくつかの偽のエッジがターゲットと強い相関関係を示す場合、不変サブグラフからのエッジを直接識別することは挑戦的でエラーが発生しやすいと主張します。
このホワイトペーパーでは、スプリアスエッジを排除してOODの一般化可能性を向上させる最初のプルーニングベースのグラフOODメソッドであるPruneを提案します。
プルーニングエッジを剪定することにより、プルーンは不変サブグラフをより包括的に保持します。これは、OOD一般化にとって重要です。
具体的には、Pruneは2つの正規化用語を使用してスプリアスエッジをプルネットします。1)グラフサイズの制約は、情報のないスプリアスエッジを除外し、2)$ \ epsilon $プロビーズアライメントを除外して、偽のエッジの発生をさらに抑制します。
理論分析と広範な実験を通じて、Pruneは優れたOODパフォーマンスを達成し、以前の最先端の方法を大幅に上回ることを示します。
コードは、\ href {https://github.com/tianyao-aka/prune-graphood} {https://github.com/tianyao-aka/prune-graphood}で入手できます。

要約(オリジナル)

Graph Neural Networks (GNNs) often encounter significant performance degradation under distribution shifts between training and test data, hindering their applicability in real-world scenarios. Recent studies have proposed various methods to address the out-of-distribution generalization challenge, with many methods in the graph domain focusing on directly identifying an invariant subgraph that is predictive of the target label. However, we argue that identifying the edges from the invariant subgraph directly is challenging and error-prone, especially when some spurious edges exhibit strong correlations with the targets. In this paper, we propose PrunE, the first pruning-based graph OOD method that eliminates spurious edges to improve OOD generalizability. By pruning spurious edges, PrunE retains the invariant subgraph more comprehensively, which is critical for OOD generalization. Specifically, PrunE employs two regularization terms to prune spurious edges: 1) graph size constraint to exclude uninformative spurious edges, and 2) $\epsilon$-probability alignment to further suppress the occurrence of spurious edges. Through theoretical analysis and extensive experiments, we show that PrunE achieves superior OOD performance and outperforms previous state-of-the-art methods significantly. Codes are available at: \href{https://github.com/tianyao-aka/PrunE-GraphOOD}{https://github.com/tianyao-aka/PrunE-GraphOOD}.

arxiv情報

著者 Tianjun Yao,Haoxuan Li,Yongqiang Chen,Tongliang Liu,Le Song,Eric Xing,Zhiqiang Shen
発行日 2025-06-11 12:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 | Pruning Spurious Subgraphs for Graph Out-of-Distribtuion Generalization はコメントを受け付けていません