Fine-Grained Behavior and Lane Constraints Guided Trajectory Prediction Method

要約

自律運転システムの重要な要素としての軌道予測は、多くの研究者の注目を集めています。
既存の予測アルゴリズムは、より詳細なシーン機能を抽出するか、より合理的な軌跡の目的地を選択することに焦点を当てています。
ただし、ターゲットビークルの動的で進化する将来の動きに直面して、これらのアルゴリズムは、予測の精度を低下させる将来の行動と車線の制約の細かく継続的な説明を提供することはできません。
この課題に対処するために、並列注意メカニズムを介して行動意図の認識と車線制約モデリングを相乗的に統合する新しいデュアルストリームアーキテクチャであるBlnetを提示します。
このフレームワークは、それぞれ2つの補助損失によって監督された、それぞれ2つの補助損失によって監督された、きめ細かい動作状態のクエリ(空間的運動パターンのキャプチャ)と車線クエリ(車線トポロジの制約をエンコード)を生成します。
その後、2段階のデコーダーが最初に軌道提案を生成し、次に、通過したレーンの連続性と将来のモーション機能の両方を共同で組み込むことにより、ポイントレベルの改良を実行します。
2つの大きなデータセットの広範な実験、ヌスケンとヨーウブは、ネットワークが既存の直接回帰と目標ベースのアルゴリズムよりも大きなパフォーマンスの向上を示すことを示しています。

要約(オリジナル)

Trajectory prediction, as a critical component of autonomous driving systems, has attracted the attention of many researchers. Existing prediction algorithms focus on extracting more detailed scene features or selecting more reasonable trajectory destinations. However, in the face of dynamic and evolving future movements of the target vehicle, these algorithms cannot provide a fine-grained and continuous description of future behaviors and lane constraints, which degrades the prediction accuracy. To address this challenge, we present BLNet, a novel dualstream architecture that synergistically integrates behavioral intention recognition and lane constraint modeling through parallel attention mechanisms. The framework generates fine-grained behavior state queries (capturing spatial-temporal movement patterns) and lane queries (encoding lane topology constraints), supervised by two auxiliary losses, respectively. Subsequently, a two-stage decoder first produces trajectory proposals, then performs point-level refinement by jointly incorporating both the continuity of passed lanes and future motion features. Extensive experiments on two large datasets, nuScenes and Argoverse, show that our network exhibits significant performance gains over existing direct regression and goal-based algorithms.

arxiv情報

著者 Wenyi Xiong,Jian Chen,Ziheng Qi
発行日 2025-04-01 14:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fine-Grained Behavior and Lane Constraints Guided Trajectory Prediction Method はコメントを受け付けていません

RedMotion: Motion Prediction via Redundancy Reduction

要約

冗長性の削減により環境表現を学習する自動運転車のモーション予測のための変圧器モデルであるRedMotionを紹介します。
最初のタイプの冗長性削減は、内部変圧器デコーダーによって誘導され、道路グラフとエージェントデータを表すローカル道路環境トークンの可変サイズのセットを固定サイズのグローバル埋め込みに削減します。
2番目のタイプの冗長性削減は、自己監視学習によって得られ、道路環境の拡張ビューから生成された埋め込みに冗長性削減原理を適用します。
私たちの実験は、私たちの表現学習アプローチが、半監視された環境でPretram、Traj-Mae、およびGraphdinoよりも優れていることを明らかにしています。
さらに、RedMotionは、WAYMOモーション予測チャレンジでHPTRまたはMTR ++と比較して競争結果を達成します。
オープンソースの実装は、https://github.com/kit-mrt/future-motionで入手できます

要約(オリジナル)

We introduce RedMotion, a transformer model for motion prediction in self-driving vehicles that learns environment representations via redundancy reduction. Our first type of redundancy reduction is induced by an internal transformer decoder and reduces a variable-sized set of local road environment tokens, representing road graphs and agent data, to a fixed-sized global embedding. The second type of redundancy reduction is obtained by self-supervised learning and applies the redundancy reduction principle to embeddings generated from augmented views of road environments. Our experiments reveal that our representation learning approach outperforms PreTraM, Traj-MAE, and GraphDINO in a semi-supervised setting. Moreover, RedMotion achieves competitive results compared to HPTR or MTR++ in the Waymo Motion Prediction Challenge. Our open-source implementation is available at: https://github.com/kit-mrt/future-motion

arxiv情報

著者 Royden Wagner,Omer Sahin Tas,Marvin Klemp,Carlos Fernandez,Christoph Stiller
発行日 2025-04-01 14:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RedMotion: Motion Prediction via Redundancy Reduction はコメントを受け付けていません

Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning

要約

視覚関係を理解する人間の能力は、特に以前に見えなかったオブジェクトの場合、AIシステムの能力よりもはるかに優れています。
たとえば、AIシステムは、そのような2つのオブジェクトが視覚的に同じか異なるかを判断するのに苦労していますが、人間は簡単にそうすることができます。
アクティブなビジョン理論は、視覚関係の学習は、目を動かすことでオブジェクトとその部分を固定するために取る行動に基づいていると仮定しています。
特に、対応する眼の動きに関する低次元空間情報は、異なる画像部分間の関係の表現を促進するために仮定されています。
これらの理論に触発されて、私たちは、入力イメージの最も顕著な領域で順次垣間見し、それらを高解像度で処理する、斬新な垣間見たアクティブな知覚(GA​​P)を備えたシステムを開発します。
重要なことに、私たちのシステムは、画像のさまざまな部分間の関係を表すために、視覚的なコンテンツとともに、垣間見るアクションに起因する場所を活用しています。
結果は、即時の視覚コンテンツを超える視覚関係を抽出するためにギャップが不可欠であることを示唆しています。
私たちのアプローチは、いくつかの視覚的推論タスクがよりサンプル効率が高く、以前のモデルよりも分散型視覚入力に対してより良い一般化で最先端のパフォーマンスに到達します。

要約(オリジナル)

Human capabilities in understanding visual relations are far superior to those of AI systems, especially for previously unseen objects. For example, while AI systems struggle to determine whether two such objects are visually the same or different, humans can do so with ease. Active vision theories postulate that the learning of visual relations is grounded in actions that we take to fixate objects and their parts by moving our eyes. In particular, the low-dimensional spatial information about the corresponding eye movements is hypothesized to facilitate the representation of relations between different image parts. Inspired by these theories, we develop a system equipped with a novel Glimpse-based Active Perception (GAP) that sequentially glimpses at the most salient regions of the input image and processes them at high resolution. Importantly, our system leverages the locations stemming from the glimpsing actions, along with the visual content around them, to represent relations between different parts of the image. The results suggest that the GAP is essential for extracting visual relations that go beyond the immediate visual content. Our approach reaches state-of-the-art performance on several visual reasoning tasks being more sample-efficient, and generalizing better to out-of-distribution visual inputs than prior models.

arxiv情報

著者 Oleh Kolner,Thomas Ortner,Stanisław Woźniak,Angeliki Pantazi
発行日 2025-04-01 14:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning はコメントを受け付けていません

HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model

要約

正確なハイパースペクトル画像(HSI)解釈は、都市計画、精密農業、環境監視などのさまざまな地球観測関連のアプリケーションに貴重な洞察を提供するために重要です。
ただし、既存のHSI処理方法は主にタスク固有でシーン依存性であり、タスクやシーン全体で知識を転送する能力を厳しく制限し、それにより実際のアプリケーションの実用性が低下します。
これらの課題に対処するために、タスクやシーン全体でHSIの解釈を統合するビジョン変圧器ベースの基礎モデルであるハイパーイングマを提示します。
HSISに固有のスペクトルと空間の冗長性を克服するために、多様な文脈的特徴の学習を効果的に促進し、ハイパー微分の基本的なブロックとして機能する新しいスパースサンプリング注意(SSA)メカニズムを導入します。
Hypersigmaは、特別に設計されたスペクトル強化モジュールを使用して、空間的特徴とスペクトル機能を統合します。
さらに、約450kのハイパースペクトル画像を含むトレーニング前の大規模なハイパースペクトルデータセット、Hyperglobal-450Kを作成し、既存のデータセットを大規模に著しく上回ります。
さまざまな高レベルおよび低レベルのHSIタスクに関する広範な実験は、現在の最新方法と比較して、ハイパーイングマの汎用性と優れた表現能力を示しています。
さらに、ハイパーイングマは、スケーラビリティ、堅牢性、クロスモーダル転送能力、現実世界の適用性、および計算効率に大きな利点を示します。
コードとモデルはhttps://github.com/whu-sigma/hypersigmaでリリースされます。

要約(オリジナル)

Accurate hyperspectral image (HSI) interpretation is critical for providing valuable insights into various earth observation-related applications such as urban planning, precision agriculture, and environmental monitoring. However, existing HSI processing methods are predominantly task-specific and scene-dependent, which severely limits their ability to transfer knowledge across tasks and scenes, thereby reducing the practicality in real-world applications. To address these challenges, we present HyperSIGMA, a vision transformer-based foundation model that unifies HSI interpretation across tasks and scenes, scalable to over one billion parameters. To overcome the spectral and spatial redundancy inherent in HSIs, we introduce a novel sparse sampling attention (SSA) mechanism, which effectively promotes the learning of diverse contextual features and serves as the basic block of HyperSIGMA. HyperSIGMA integrates spatial and spectral features using a specially designed spectral enhancement module. In addition, we construct a large-scale hyperspectral dataset, HyperGlobal-450K, for pre-training, which contains about 450K hyperspectral images, significantly surpassing existing datasets in scale. Extensive experiments on various high-level and low-level HSI tasks demonstrate HyperSIGMA’s versatility and superior representational capability compared to current state-of-the-art methods. Moreover, HyperSIGMA shows significant advantages in scalability, robustness, cross-modal transferring capability, real-world applicability, and computational efficiency. The code and models will be released at https://github.com/WHU-Sigma/HyperSIGMA.

arxiv情報

著者 Di Wang,Meiqi Hu,Yao Jin,Yuchun Miao,Jiaqi Yang,Yichu Xu,Xiaolei Qin,Jiaqi Ma,Lingyu Sun,Chenxing Li,Chuan Fu,Hongruixuan Chen,Chengxi Han,Naoto Yokoya,Jing Zhang,Minqiang Xu,Lin Liu,Lefei Zhang,Chen Wu,Bo Du,Dacheng Tao,Liangpei Zhang
発行日 2025-04-01 15:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model はコメントを受け付けていません

HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation

要約

DCE-MRIの乳がん病変のセグメンテーションは、不均一な腫瘍の形態と不明瞭な境界のために依然として困難なままです。
これらの課題に対処するために、この研究では、乳がんの病変セグメンテーションのために、新しいハイブリッドセグメンテーションネットワークHCMA-Unetを提案しています。
私たちのネットワークは、軽量のCNNバックボーンとマルチビュー軸の自己触媒マンバ(MISM)モジュールで構成されています。
MISMモジュールは、視覚的な状態空間ブロック(VSSB)と軸の自己関節(ASA)メカニズムを統合し、効率的な三方向の特徴抽出を実現するために、非対称スプリットチャネル(ASC)戦略を通じてパラメーターを効果的に削減します。
私たちの軽量モデルは、2.87mパラメーターと126.44 GFLOPSで優れた性能を達成します。
セグメンテーションの精度を向上させるために、機能ガイド下のリージョンアウェア損失関数(FRLOSS)が提案されています。
1つのプライベートと2つの公共DCE-MRI乳がんデータセットでの広範な実験は、私たちのアプローチが計算効率を維持しながら最先端のパフォーマンスを達成することを示しています。
Frlossは、優れた横断的な一般化能力も示しています。
ソースコードは、https://github.com/haoxuanli-thu/hcma-unetで入手できます。

要約(オリジナル)

Breast cancer lesion segmentation in DCE-MRI remains challenging due to heterogeneous tumor morphology and indistinct boundaries. To address these challenges, this study proposes a novel hybrid segmentation network, HCMA-UNet, for lesion segmentation of breast cancer. Our network consists of a lightweight CNN backbone and a Multi-view Axial Self-Attention Mamba (MISM) module. The MISM module integrates Visual State Space Block (VSSB) and Axial Self-Attention (ASA) mechanism, effectively reducing parameters through Asymmetric Split Channel (ASC) strategy to achieve efficient tri-directional feature extraction. Our lightweight model achieves superior performance with 2.87M parameters and 126.44 GFLOPs. A Feature-guided Region-aware loss function (FRLoss) is proposed to enhance segmentation accuracy. Extensive experiments on one private and two public DCE-MRI breast cancer datasets demonstrate that our approach achieves state-of-the-art performance while maintaining computational efficiency. FRLoss also exhibits good cross-architecture generalization capabilities. The source code is available at https://github.com/Haoxuanli-Thu/HCMA-UNet.

arxiv情報

著者 Haoxuan Li,Wei song,Peiwu Qin,Xi Yuan,Zhenglin Chen
発行日 2025-04-01 15:36:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation はコメントを受け付けていません

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models

要約

Federated Prown Learningは、Clipのようなビジョン言語モデル(VLM)の堅牢な表現学習能力を備えたClipのようなビジョン言語モデルを使用したフェデレーションラーニングを促進します。
ただし、現在のフェデレートプロンプト学習方法は、従来のFLパラダイムに習慣的に制限されています。このパラダイムでは、参加しているクライアントは一般に、サーバーからグローバルに集約された単一のモデルをダウンロードすることができます。
この作業では、連邦設定でフルサイズのモデルをトレーニングするために正当化できますが、このパラダイムは軽量プロンプトには不適切であると主張します。
クライアントが固定非ローカルエキスパートとして複数の事前に凝集したプロンプトをダウンロードするように促進することにより、専門家の混合物(MOE)のレンズを通じてプロンプト学習プロセスをパーソナライズする新しいFLフレームワークである適応プロンプト(PFEDMOAP)のパーソナライズされたフェデレーション混合物を提案します。
PFEDMOAPは、ローカルイメージデータとより適切に整合するための強化されたテキスト機能を生成することを学ぶローカルな注意ベースのゲーティングネットワークを実装し、ローカルおよびダウンロードされた非ローカル適応プロンプトエキスパートの両方の恩恵を受けます。
さまざまなフェデレーション設定の下での9つのデータセットでの広範な実験は、提案されたPFEDMOAPアルゴリズムの有効性を示しています。
このコードは、https://github.com/ljaiverson/pfedmoapで入手できます。

要約(オリジナル)

Federated prompt learning benefits federated learning with CLIP-like Vision-Language Model’s (VLM’s) robust representation learning ability through prompt learning. However, current federated prompt learning methods are habitually restricted to the traditional FL paradigm, where the participating clients are generally only allowed to download a single globally aggregated model from the server. While justifiable for training full-sized models under federated settings, in this work, we argue that this paradigm is ill-suited for lightweight prompts. By facilitating the clients to download multiple pre-aggregated prompts as fixed non-local experts, we propose Personalized Federated Mixture of Adaptive Prompts (pFedMoAP), a novel FL framework that personalizes the prompt learning process through the lens of Mixture of Experts (MoE). pFedMoAP implements a local attention-based gating network that learns to generate enhanced text features for better alignment with local image data, benefiting from both local and downloaded non-local adaptive prompt experts. Extensive experiments on 9 datasets under various federated settings demonstrate the efficacy of the proposed pFedMoAP algorithm. The code is available at https://github.com/ljaiverson/pFedMoAP.

arxiv情報

著者 Jun Luo,Chen Chen,Shandong Wu
発行日 2025-04-01 15:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models はコメントを受け付けていません

Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey

要約

方向のオブジェクト検出は、任意の方向を持つオブジェクトを見つけて分類することを目的とした、リモートセンシングの最も基本的で挑戦的なタスクの1つです。
深い学習における最近の進歩により、指向されたオブジェクト検出の能力が大幅に向上しました。
この分野の急速な発展を考えると、このペーパーでは、方向のあるオブジェクト検出における最近の進歩に関する包括的な調査を提示します。
具体的には、水平オブジェクトの検出から指向されたオブジェクトの検出への技術的進化を追跡し、機能の不整合、空間的不整列、方向の境界ボックス(OBB)回帰問題など、特定の課題を強調することから始めます。
その後、既存の方法をさらに検出フレームワーク、OBB回帰、および特徴表現に分類し、これらのアプローチが上記の課題にどのように対処するかについて詳細な議論を提供します。
さらに、いくつかの公開されているデータセットと評価プロトコルについて説明します。
さらに、最先端の方法の包括的な比較と分析を提供します。
この論文の終わりに向かって、指向性オブジェクト検出のためのいくつかの将来の方向を特定します。

要約(オリジナル)

Oriented object detection is one of the most fundamental and challenging tasks in remote sensing, aiming to locate and classify objects with arbitrary orientations. Recent advancements in deep learning have significantly enhanced the capabilities of oriented object detection. Given the rapid development of this field, this paper presents a comprehensive survey of recent advances in oriented object detection. To be specific, we begin by tracing the technical evolution from horizontal object detection to oriented object detection and highlighting the specific challenges, including feature misalignment, spatial misalignment, and oriented bounding box (OBB) regression problems. Subsequently, we further categorize existing methods into detection framework, OBB regression, and feature representations, and provide an in-depth discussion on how these approaches address the above challenges. In addition, we cover several publicly available datasets and evaluation protocols. Furthermore, we provide a comprehensive comparison and analysis of state-of-the-art methods. Toward the end of this paper, we identify several future directions for oriented object detection.

arxiv情報

著者 Kun Wang,Zi Wang,Zhang Li,Ang Su,Xichao Teng,Erting Pan,Minhao Liu,Qifeng Yu
発行日 2025-04-01 15:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey はコメントを受け付けていません

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

要約

画像から幾何学的情報と材料情報をキャプチャすることは、コンピュータービジョンとグラフィックスの根本的な課題のままです。
従来の最適化ベースの方法は、照明と材料の間の固有の曖昧さに苦しんでいる一方で、密なマルチビュー入力からの幾何学、材料特性、および環境照明を再構築するために数時間の計算時間を必要とすることがよくあります。
一方、学習ベースのアプローチは、既存の3Dオブジェクトデータセットからの豊富な材料の事前を活用していますが、マルチビューの一貫性を維持する際に課題に直面しています。
この論文では、さまざまな照明の下で任意の数の画像で固有の分解を実行するように設計された拡散ベースのモデルであるIdarbを紹介します。
私たちの方法は、表面の正常と材料特性に関する正確でマルチビューの一貫した推定を実現します。
これは、新しいクロスビュー、クロスドメインの注意モジュール、および照明を備えたビューに適したトレーニング戦略を通じて可能になります。
さらに、ARB-Objaverseを導入します。これは、多様な照明条件の下で大規模なマルチビューの固有データとレンダリングを提供し、堅牢なトレーニングをサポートする新しいデータセットです。
広範な実験は、Idarbが定性的および定量的に最新の方法を上回ることを示しています。
さらに、当社のアプローチは、シングルイメージの学習、測光ステレオ、3D再構成など、さまざまなダウンストリームタスクを促進し、現実的な3Dコンテンツ作成における幅広いアプリケーションを強調しています。

要約(オリジナル)

Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

arxiv情報

著者 Zhibing Li,Tong Wu,Jing Tan,Mengchen Zhang,Jiaqi Wang,Dahua Lin
発行日 2025-04-01 16:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations はコメントを受け付けていません

DetailGen3D: Generative 3D Geometry Enhancement via Data-Dependent Flow

要約

最新の3D生成方法は、スパースまたはシングルビューから迅速に形状を作成できますが、それらの出力は、計算上の制約のために幾何学的な詳細を欠いていることがよくあります。
これらの生成された3D形状を強化するために特別に設計された生成アプローチであるDefateGen3Dを提示します。
私たちの重要な洞察は、大規模な3D生成モデルの計算オーバーヘッドを避けて、潜在空間でのデータ依存の流れを介して粗からファインへの変換を直接モデル化することです。
洗練中に正確な空間的対応を保証するトークンマッチング戦略を導入し、グローバル構造を維持しながらローカルディテール合成を可能にします。
合成された粗い形状の特性と一致するようにトレーニングデータを慎重に設計することにより、私たちの方法は、シングルビューからスパースマルチビュー入力まで、さまざまな3D生成および再建アプローチによって生成される形状を効果的に強化できます。
広範な実験では、詳細Gen3Dがトレーニングの効率を維持しながら、高忠実度の幾何学的ディテール合成を達成することを示しています。

要約(オリジナル)

Modern 3D generation methods can rapidly create shapes from sparse or single views, but their outputs often lack geometric detail due to computational constraints. We present DetailGen3D, a generative approach specifically designed to enhance these generated 3D shapes. Our key insight is to model the coarse-to-fine transformation directly through data-dependent flows in latent space, avoiding the computational overhead of large-scale 3D generative models. We introduce a token matching strategy that ensures accurate spatial correspondence during refinement, enabling local detail synthesis while preserving global structure. By carefully designing our training data to match the characteristics of synthesized coarse shapes, our method can effectively enhance shapes produced by various 3D generation and reconstruction approaches, from single-view to sparse multi-view inputs. Extensive experiments demonstrate that DetailGen3D achieves high-fidelity geometric detail synthesis while maintaining efficiency in training.

arxiv情報

著者 Ken Deng,Yuan-Chen Guo,Jingxiang Sun,Zi-Xin Zou,Yangguang Li,Xin Cai,Yan-Pei Cao,Yebin Liu,Ding Liang
発行日 2025-04-01 16:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | DetailGen3D: Generative 3D Geometry Enhancement via Data-Dependent Flow はコメントを受け付けていません

Rehearsal-free Federated Domain-incremental Learning

要約

リハーサルのないフェデレートドメインの増分学習フレームワークであるReffilを紹介します。これは、目に見えないドメインが継続的に学習されているフェデレートドメインと秘密の学習における壊滅的な忘却の課題を緩和するためのグローバルな迅速な共有パラダイムに基づいています。
追加のデータセットの使用や以前のタスクからのプライベートデータの保持など、忘却を緩和するための典型的な方法は、デバイスの限られたリソースのためにフェデレートラーニング(FL)では実行可能ではありません。
私たちの方法であるReffilは、ドメイン不変の知識を学習し、異なるFL参加者が表すドメインからのさまざまなドメイン固有のプロンプトを組み込むことにより、これに対処します。
Reffilの重要な特徴は、ドメイン適応プロンプトジェネレーターによるローカルファイングレインプロンプトの生成です。これは、地域のドメインの知識から効果的に学習しながら、地球規模で特徴的な境界を維持します。
また、局所的に生成されたプロンプトと他のドメインのプロンプトを区別するドメイン固有のプロンプト対照学習損失を導入し、Reffilの精度と有効性を高めます。
既存の方法と比較して、Reffilは、余分なメモリスペースを必要とせずに壊滅的な忘却を大幅に軽減し、プライバシーに敏感でリソースに制約のあるデバイスに最適です。

要約(オリジナル)

We introduce a rehearsal-free federated domain incremental learning framework, RefFiL, based on a global prompt-sharing paradigm to alleviate catastrophic forgetting challenges in federated domain-incremental learning, where unseen domains are continually learned. Typical methods for mitigating forgetting, such as the use of additional datasets and the retention of private data from earlier tasks, are not viable in federated learning (FL) due to devices’ limited resources. Our method, RefFiL, addresses this by learning domain-invariant knowledge and incorporating various domain-specific prompts from the domains represented by different FL participants. A key feature of RefFiL is the generation of local fine-grained prompts by our domain adaptive prompt generator, which effectively learns from local domain knowledge while maintaining distinctive boundaries on a global scale. We also introduce a domain-specific prompt contrastive learning loss that differentiates between locally generated prompts and those from other domains, enhancing RefFiL’s precision and effectiveness. Compared to existing methods, RefFiL significantly alleviates catastrophic forgetting without requiring extra memory space, making it ideal for privacy-sensitive and resource-constrained devices.

arxiv情報

著者 Rui Sun,Haoran Duan,Jiahua Dong,Varun Ojha,Tejal Shah,Rajiv Ranjan
発行日 2025-04-01 17:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Rehearsal-free Federated Domain-incremental Learning はコメントを受け付けていません