Digital Beamforming Enhanced Radar Odometry

要約

レーダーは、特にカメラとライダーセンサーが故障する挑戦的な環境では、自律的なナビゲーションに不可欠なセンサーになりました。
特に、4Dシングルチップミリ波レーダーシステムは、ハードウェアコストと消費電力を低くして空間情報とドップラー情報を提供する能力のおかげで、注目を集めています。
ただし、高速フーリエ変換など、従来の信号処理を使用したほとんどのシングルチップレーダーシステムは、レーダー検出における空間分解能が限られており、レーダーベースの匂い測定と同時ローカリゼーションとマッピング(SLAM)システムの性能を大幅に制限します。
このホワイトペーパーでは、空間ドメインビームフォーミング技術を統合する新しいレーダー信号処理パイプラインを開発し、3D到着推定方向に拡張します。
パブリックデータセットを使用した実験は、提案された信号処理パイプラインのパフォーマンスを従来の方法論と比較して比較するために実施されます。
これらのテストは、さまざまなシーン全体で構造的精度を評価し、異なるレーダー臭トメトリシステムでの延長の精度を測定することに特に焦点を当てています。
この研究は、標準のFFTベースの処理を提案されたパイプラインに置き換えるだけで、より正確なレーダー臭気を達成する可能性を実現する可能性を示しています。
コードはgithub*で入手できます。

要約(オリジナル)

Radar has become an essential sensor for autonomous navigation, especially in challenging environments where camera and LiDAR sensors fail. 4D single-chip millimeter-wave radar systems, in particular, have drawn increasing attention thanks to their ability to provide spatial and Doppler information with low hardware cost and power consumption. However, most single-chip radar systems using traditional signal processing, such as Fast Fourier Transform, suffer from limited spatial resolution in radar detection, significantly limiting the performance of radar-based odometry and Simultaneous Localization and Mapping (SLAM) systems. In this paper, we develop a novel radar signal processing pipeline that integrates spatial domain beamforming techniques, and extend it to 3D Direction of Arrival estimation. Experiments using public datasets are conducted to evaluate and compare the performance of our proposed signal processing pipeline against traditional methodologies. These tests specifically focus on assessing structural precision across diverse scenes and measuring odometry accuracy in different radar odometry systems. This research demonstrates the feasibility of achieving more accurate radar odometry by simply replacing the standard FFT-based processing with the proposed pipeline. The codes are available at GitHub*.

arxiv情報

著者 Jingqi Jiang,Shida Xu,Kaicheng Zhang,Jiyuan Wei,Jingyang Wang,Sen Wang
発行日 2025-03-17 15:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Digital Beamforming Enhanced Radar Odometry はコメントを受け付けていません

A Generalized Control Revision Method for Autonomous Driving Safety

要約

安全性は、自動運転車の最も重要な課題の1つであり、安全性を保証するためのソリューションの1つは、計画バックボーン後に追加の制御リビジョンモジュールを使用することです。
制御バリア関数(CBF)は、安全性に関する数学的基盤が強いため、広く使用されています。
ただし、不均一な知覚データとの非互換性と、トラフィックシーン要素の不完全な考慮により、既存のシステムを動的で複雑な現実世界のシナリオに適用するのが難しくなります。
この研究では、自動運転の安全性のための一般化された制御修正方法を導入します。これは、ベクトル化された知覚と占有グリッドマップの両方を入力として採用し、新しい提案されたバリア機能に基づいて複数のタイプのトラフィックシーンの制約を包括的にモデル化します。
トラフィック要素は、特定のシナリオ設定またはルールから切り離された1つの統一されたフレームワークに統合されます。
カーラ、SUMO、およびオンサイトシミュレーターの実験は、提案されたアルゴリズムが複雑なシーンで安全な制御修正を実現し、さまざまな計画バックボーン、道路トポロジ、リスクタイプに適応できることを証明しています。
物理プラットフォームの検証は、実際のアプリケーションの実現可能性も検証します。

要約(オリジナル)

Safety is one of the most crucial challenges of autonomous driving vehicles, and one solution to guarantee safety is to employ an additional control revision module after the planning backbone. Control Barrier Function (CBF) has been widely used because of its strong mathematical foundation on safety. However, the incompatibility with heterogeneous perception data and incomplete consideration of traffic scene elements make existing systems hard to be applied in dynamic and complex real-world scenarios. In this study, we introduce a generalized control revision method for autonomous driving safety, which adopts both vectorized perception and occupancy grid map as inputs and comprehensively models multiple types of traffic scene constraints based on a new proposed barrier function. Traffic elements are integrated into one unified framework, decoupled from specific scenario settings or rules. Experiments on CARLA, SUMO, and OnSite simulator prove that the proposed algorithm could realize safe control revision under complicated scenes, adapting to various planning backbones, road topologies, and risk types. Physical platform validation also verifies the real-world application feasibility.

arxiv情報

著者 Zehang Zhu,Yuning Wang,Tianqi Ke,Zeyu Han,Shaobing Xu,Qing Xu,John M. Dolan,Jianqiang Wang
発行日 2025-03-17 15:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Generalized Control Revision Method for Autonomous Driving Safety はコメントを受け付けていません

Simultaneous Ground Reaction Force and State Estimation via Constrained Moving Horizon Estimation

要約

正確な地上反力(GRF)推定により、さまざまな現実世界の用途での脚のロボットの適応性が大幅に向上する可能性があります。
たとえば、推定GRFおよび接触運動学により、移動制御と計画は、ロボットが不確実な地形を克服するのを支援します。
非線形オブザーバーとして定式化された標準的な運動量ベースの方法は、騒々しい測定と浮遊塩基状態と一般化運動量のダイナミクス間の依存性に完全に対処しないでください。
このホワイトペーパーでは、脚のロボットの同時地面反力と状態推定フレームワークを紹介します。これは、センサーノイズと状態とダイナミクス間の結合に体系的に対処します。
フローティングベースの向きを別々に推定すると、ロボットダイナミクス、固有受容センサー、外部受容センサー、および決定論的な接触相補性の制約を融合して燃料窓の最適化に融合するために、分散化された移動ホリズン推定(MHE)メソッドが実装されています。
提案された方法は、カスタム設計のヒューマノイドロボットバッキー、オープンソースの教育的平面上二足歩行ロボットストライド、および四重類のロボット単位GO1を含む、カスタム設計のヒューマノイドロボットバッキー、200Hzの頻度と0.04sの過去の時間枠を含む、いくつかの脚のロボットに正確なGRFと状態推定を提供できることが示されています。

要約(オリジナル)

Accurate ground reaction force (GRF) estimation can significantly improve the adaptability of legged robots in various real-world applications. For instance, with estimated GRF and contact kinematics, the locomotion control and planning assist the robot in overcoming uncertain terrains. The canonical momentum-based methods, formulated as nonlinear observers, do not fully address the noisy measurements and the dependence between floating-base states and the generalized momentum dynamics. In this paper, we present a simultaneous ground reaction force and state estimation framework for legged robots, which systematically addresses the sensor noise and the coupling between states and dynamics. With the floating base orientation estimated separately, a decentralized Moving Horizon Estimation (MHE) method is implemented to fuse the robot dynamics, proprioceptive sensors, exteroceptive sensors, and deterministic contact complementarity constraints in a convex windowed optimization. The proposed method is shown to be capable of providing accurate GRF and state estimation on several legged robots, including the custom-designed humanoid robot Bucky, the open-source educational planar bipedal robot STRIDE, and the quadrupedal robot Unitree Go1, with a frequency of 200Hz and a past time window of 0.04s.

arxiv情報

著者 Jiarong Kang,Xiaobin Xiong
発行日 2025-03-17 15:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Simultaneous Ground Reaction Force and State Estimation via Constrained Moving Horizon Estimation はコメントを受け付けていません

Enhancing Robustness in Manipulability Assessment: The Pseudo-Ellipsoid Approach

要約

操作性分析は、特定の構成で、明確なシステムの能力を評価して、動きを生成したり、さまざまな方向に力を発揮したりするために採用される方法論です。
従来の方法には、システムの構成とモデルを使用して仮想楕円体を生成することが必要です。
しかし、このアプローチは、そのような情報への直接アクセスが限られている人体などのシステムに適用されると、推定への依存を必要とする場合に課題をもたらします。
これらの推定の不正確さは、楕円体の構成を歪め、操作性評価の精度を潜在的に損なう可能性があります。
この問題に対処するために、この記事では、操作可能性の擬似溶解性の概念を導入することにより、標準的なアプローチを拡張します。
一連の理論分析、シミュレーション、および実験を通じて、この記事は、提案された方法が感覚情報のノイズに対する感度を低下させ、その結果、アプローチの堅牢性を高めることを示しています。

要約(オリジナル)

Manipulability analysis is a methodology employed to assess the capacity of an articulated system, at a specific configuration, to produce motion or exert force in diverse directions. The conventional method entails generating a virtual ellipsoid using the system’s configuration and model. Yet, this approach poses challenges when applied to systems such as the human body, where direct access to such information is limited, necessitating reliance on estimations. Any inaccuracies in these estimations can distort the ellipsoid’s configuration, potentially compromising the accuracy of the manipulability assessment. To address this issue, this article extends the standard approach by introducing the concept of the manipulability pseudo-ellipsoid. Through a series of theoretical analyses, simulations, and experiments, the article demonstrates that the proposed method exhibits reduced sensitivity to noise in sensory information, consequently enhancing the robustness of the approach.

arxiv情報

著者 Erfan Shahriari,Kim Kirstin Peper,Matej Hoffmann,Sami Haddadin
発行日 2025-03-17 16:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | Enhancing Robustness in Manipulability Assessment: The Pseudo-Ellipsoid Approach はコメントを受け付けていません

Artificial Spacetimes for Reactive Control of Resource-Limited Robots

要約

フィールドベースのリアルティブコントロールは、オンボード計算を欠くロボットをガイドするロボットへのミニマリストで分散型のルートを提供します。
このようなスキームは、マイクロボットなどのリソース制限マシンに適していますが、実装アーティファクト、限られた行動、および正式な保証の頻繁な不足が鈍い採用です。
ここでは、人工時空と呼ばれる新しい幾何学的アプローチでこれらの課題に対処します。
コントロールフィールドをナビゲートする反応性ロボットが、一般相対性理論の光線と同じダイナミクスに従うことを示します。
この驚くべきつながりにより、制御分野を構築および分析するために、相対性と光学系からのテクニックを採用することができます。
実装された場合、人工空間は構造化された環境を中心にロボットをガイドし、同時に境界を避け、ラリーやソートなどのタスクを実行します。
これらの機能は、ロボットが何をするかを分析するための正式なツールで補強し、シリコンベースのマイクロボットで実験的検証を提供します。
組み合わせて、この作業は、最小限のオーバーヘッドで構成されたロボットの動作を生成するための新しいフレームワークを提供します。

要約(オリジナル)

Field-based reactive control provides a minimalist, decentralized route to guiding robots that lack onboard computation. Such schemes are well suited to resource-limited machines like microrobots, yet implementation artifacts, limited behaviors, and the frequent lack of formal guarantees blunt adoption. Here, we address these challenges with a new geometric approach called artificial spacetimes. We show that reactive robots navigating control fields obey the same dynamics as light rays in general relativity. This surprising connection allows us to adopt techniques from relativity and optics for constructing and analyzing control fields. When implemented, artificial spacetimes guide robots around structured environments, simultaneously avoiding boundaries and executing tasks like rallying or sorting, even when the field itself is static. We augment these capabilities with formal tools for analyzing what robots will do and provide experimental validation with silicon-based microrobots. Combined, this work provides a new framework for generating composed robot behaviors with minimal overhead.

arxiv情報

著者 William H. Reinhardt,Marc Z. Miskin
発行日 2025-03-17 16:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, physics.app-ph | Artificial Spacetimes for Reactive Control of Resource-Limited Robots はコメントを受け付けていません

MAME: Multidimensional Adaptive Metamer Exploration with Human Perceptual Feedback

要約

人間の脳ネットワークと人工モデルの間の整合は、機械学習と神経科学で積極的に研究されています。
それらの機能的アラインメントを調査するために広く採用されているアプローチは、人間とモデルの両方のメタマーを特定することです。
メタマーは、特定のシステム内で物理的に異なるが同等の入力刺激を指します。
モデルのメタイメリック空間が人間のメタメラ空間と完全に一致した場合、モデルは人間との機能的整合を達成します。
ただし、従来の方法には、人間のメタマーを検索する直接的な方法がありません。
代わりに、研究者は最初に生物学的にインスパイアされたモデルを開発し、次にモデルメタマーも人間のメタマーとして現れるかどうかをテストすることにより、間接的にヒトメタマーについて推測します。
ここでは、多次元適応型メタマー探査(MAME)フレームワークを提案し、人間のメタメラ空間の直接高次元探査を可能にします。
MAMEは、人間の知覚フィードバックに導かれたオンライン画像生成を活用します。
具体的には、畳み込みニューラルネットワーク(CNNS)からの階層応答を活用することにより、複数の次元にわたって参照画像を変調します。
生成された画像は、行動タスクで知覚的な識別性が評価される参加者に提示されます。
参加者の応答に基づいて、その後の画像生成パラメーターはオンラインで適応的に更新されます。
MAMEフレームワークを使用して、単一の実験内で50を超える寸法の人間のメタメラ空間を測定しました。
実験結果は、画像のコントラストメトリックが説明できなかった高レベルの特徴と比較して、低レベルの特徴に基づいたメタメラ画像では人間の識別感度が低いことを示しました。
この発見は、モデルが人間の認識に不可欠ではない低レベルの情報を計算することを示唆しています。
私たちのフレームワークは、解釈可能なAIの開発と神経科学における脳機能の理解に貢献する可能性があります。

要約(オリジナル)

Alignment between human brain networks and artificial models is actively studied in machine learning and neuroscience. A widely adopted approach to explore their functional alignment is to identify metamers for both humans and models. Metamers refer to input stimuli that are physically different but equivalent within a given system. If a model’s metameric space completely matched the human metameric space, the model would achieve functional alignment with humans. However, conventional methods lack direct ways to search for human metamers. Instead, researchers first develop biologically inspired models and then infer about human metamers indirectly by testing whether model metamers also appear as metamers to humans. Here, we propose the Multidimensional Adaptive Metamer Exploration (MAME) framework, enabling direct high-dimensional exploration of human metameric space. MAME leverages online image generation guided by human perceptual feedback. Specifically, it modulates reference images across multiple dimensions by leveraging hierarchical responses from convolutional neural networks (CNNs). Generated images are presented to participants whose perceptual discriminability is assessed in a behavioral task. Based on participants’ responses, subsequent image generation parameters are adaptively updated online. Using our MAME framework, we successfully measured a human metameric space of over fifty dimensions within a single experiment. Experimental results showed that human discrimination sensitivity was lower for metameric images based on low-level features compared to high-level features, which image contrast metrics could not explain. The finding suggests that the model computes low-level information not essential for human perception. Our framework has the potential to contribute to developing interpretable AI and understanding of brain function in neuroscience.

arxiv情報

著者 Mina Kamao,Hayato Ono,Ayumu Yamashita,Kaoru Amano,Masataka Sawayama
発行日 2025-03-17 14:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MAME: Multidimensional Adaptive Metamer Exploration with Human Perceptual Feedback はコメントを受け付けていません

Standardizing Structural Causal Models

要約

構造因果モデル(SCM)によって生成された合成データセットは、一般的に因果構造学習アルゴリズムのベンチマークに使用されます。
ただし、SCMデータの分散とペアワイズ相関は、因果順序に沿って増加する傾向があります。
いくつかの一般的なアルゴリズムはこれらのアーティファクトを活用しており、おそらく実際の設定に一般化されない結論につながる可能性があります。
$ \ operatorname {var} $ – 並べ替えや$ \ operatorname {r^2} $ – ソート性などの既存のメトリックは、これらのパターンを定量化しますが、それらを改善するためのツールを提供しません。
これに対処するために、生成プロセス中に各変数で標準化操作を導入するSCMの変更である内部標準化された構造因果モデル(ISCM)を提案します。
建設により、ISCMは$ \ operatorname {var} $ – 並べ替え可能ではありません。
また、それらがほとんど$ \ operatorname {r^2} $ではないという経験的証拠も見つかります – 一般的に使用されているグラフファミリに対してソート可能です。
さらに、標準SCMによって生成されたデータの事後標準化とは反対に、線形ISCMは重みに関する事前知識から識別できず、ここで研究されているベンチマーク問題を超えた因果関係の有用なモデルになる可能性がある大規模システムの決定論的な関係から崩壊しないことが証明されています。
私たちのコードは、https://github.com/werkaaa/iscmで公開されています。

要約(オリジナル)

Synthetic datasets generated by structural causal models (SCMs) are commonly used for benchmarking causal structure learning algorithms. However, the variances and pairwise correlations in SCM data tend to increase along the causal ordering. Several popular algorithms exploit these artifacts, possibly leading to conclusions that do not generalize to real-world settings. Existing metrics like $\operatorname{Var}$-sortability and $\operatorname{R^2}$-sortability quantify these patterns, but they do not provide tools to remedy them. To address this, we propose internally-standardized structural causal models (iSCMs), a modification of SCMs that introduces a standardization operation at each variable during the generative process. By construction, iSCMs are not $\operatorname{Var}$-sortable. We also find empirical evidence that they are mostly not $\operatorname{R^2}$-sortable for commonly-used graph families. Moreover, contrary to the post-hoc standardization of data generated by standard SCMs, we prove that linear iSCMs are less identifiable from prior knowledge on the weights and do not collapse to deterministic relationships in large systems, which may make iSCMs a useful model in causal inference beyond the benchmarking problem studied here. Our code is publicly available at: https://github.com/werkaaa/iscm.

arxiv情報

著者 Weronika Ormaniec,Scott Sussex,Lars Lorch,Bernhard Schölkopf,Andreas Krause
発行日 2025-03-17 14:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Standardizing Structural Causal Models はコメントを受け付けていません

Dense Policy: Bidirectional Autoregressive Learning of Actions

要約

主流の視覚運動ポリシーは、主に全体的なアクション予測の生成モデルに依存していますが、次のトークンまたはチャンクを予測する現在の自己回帰ポリシーは、最適ではない結果を示しています。
これにより、ロボット操作のための自己回帰ポリシーの可能性を解き放つための、より効果的な学習方法の検索が動機付けられます。
このペーパーでは、密集した政策と呼ばれる双方向に拡張された学習アプローチを紹介し、アクション予測における自己回帰ポリシーの新しいパラダイムを確立します。
軽量のエンコーダのみのアーキテクチャを使用して、対数時間推論を使用して、初期の単一フレームから粗から洗練された方法でアクションシーケンスをターゲットシーケンスに繰り返し展開します。
広範な実験では、密集したポリシーが優れた自己回帰学習能力を持ち、既存の全体的な生成ポリシーを上回ることができることを検証します。
当社のポリシー、例データ、およびトレーニングコードは、公開時に公開されます。
プロジェクトページ:https://selen-suyue.github.io/dspnet/。

要約(オリジナル)

Mainstream visuomotor policies predominantly rely on generative models for holistic action prediction, while current autoregressive policies, predicting the next token or chunk, have shown suboptimal results. This motivates a search for more effective learning methods to unleash the potential of autoregressive policies for robotic manipulation. This paper introduces a bidirectionally expanded learning approach, termed Dense Policy, to establish a new paradigm for autoregressive policies in action prediction. It employs a lightweight encoder-only architecture to iteratively unfold the action sequence from an initial single frame into the target sequence in a coarse-to-fine manner with logarithmic-time inference. Extensive experiments validate that our dense policy has superior autoregressive learning capabilities and can surpass existing holistic generative policies. Our policy, example data, and training code will be publicly available upon publication. Project page: https: //selen-suyue.github.io/DspNet/.

arxiv情報

著者 Yue Su,Xinyu Zhan,Hongjie Fang,Han Xue,Hao-Shu Fang,Yong-Lu Li,Cewu Lu,Lixin Yang
発行日 2025-03-17 14:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Dense Policy: Bidirectional Autoregressive Learning of Actions はコメントを受け付けていません

ProDiF: Protecting Domain-Invariant Features to Secure Pre-Trained Models Against Extraction

要約

事前に訓練されたモデルは貴重な知的財産であり、重量スペース内でドメイン固有とドメインの両方の機能をキャプチャします。
ただし、モデル抽出攻撃は、不正なソースドメインの推論を可能にし、ドメインに不変の特徴の活用を介してクロスドメイン移転を促進することにより、これらの資産を脅かします。
この作業では、** ProDif **を紹介します。これは、標的型の操作を活用して抽出攻撃に対して事前に訓練されたモデルを確保する新しいフレームワークを紹介します。
** ProDif **は、信頼できるユーザー向けの信頼できる実行環境(TEE)で実際の重要な重みを維持しながら、フィルターとPreturbsの重要なフィルターの重みを無担保メモリの重みを定量化します。
バイレベルの最適化により、適応微調整攻撃に対する回復力がさらに保証されます。
実験結果は、** ProDif **がソースドメインの精度をランダムに近いレベルに減らし、クロスドメインの移動性を74.65 \%減少させ、事前に訓練されたモデルを堅牢な保護を提供することを示しています。
この作業は、事前に訓練されたDNNモデルの包括的な保護を提供し、モデルセキュリティへの新しいアプローチとしての重量空間操作の可能性を強調しています。

要約(オリジナル)

Pre-trained models are valuable intellectual property, capturing both domain-specific and domain-invariant features within their weight spaces. However, model extraction attacks threaten these assets by enabling unauthorized source-domain inference and facilitating cross-domain transfer via the exploitation of domain-invariant features. In this work, we introduce **ProDiF**, a novel framework that leverages targeted weight space manipulation to secure pre-trained models against extraction attacks. **ProDiF** quantifies the transferability of filters and perturbs the weights of critical filters in unsecured memory, while preserving actual critical weights in a Trusted Execution Environment (TEE) for authorized users. A bi-level optimization further ensures resilience against adaptive fine-tuning attacks. Experimental results show that **ProDiF** reduces source-domain accuracy to near-random levels and decreases cross-domain transferability by 74.65\%, providing robust protection for pre-trained models. This work offers comprehensive protection for pre-trained DNN models and highlights the potential of weight space manipulation as a novel approach to model security.

arxiv情報

著者 Tong Zhou,Shijin Duan,Gaowen Liu,Charles Fleming,Ramana Rao Kompella,Shaolei Ren,Xiaolin Xu
発行日 2025-03-17 14:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | ProDiF: Protecting Domain-Invariant Features to Secure Pre-Trained Models Against Extraction はコメントを受け付けていません

Mind the Gap: Confidence Discrepancy Can Guide Federated Semi-Supervised Learning Across Pseudo-Mismatch

要約

Federated Semi-Supervised Learning(FSSL)は、限られたラベル付きデータを持つクライアント間で非標識データを活用して、強力な一般化能力を備えたグローバルモデルをトレーニングすることを目的としています。
ほとんどのFSSLメソッドは、擬似ラベルとの一貫性の正規化に依存しており、ローカルモデルまたはグローバルモデルからの予測を監督信号として硬い擬似ラベルに変換します。
しかし、擬似界面の質は、フェデレート学習の本質的な側面であるデータの不均一性によって大幅に悪化していることがわかります。
この論文では、FSSLの詳細な問題を調査し、(1)不均一性が擬似ラベルのミスマッチを悪化させ、モデルのパフォーマンスと収束をさらに低下させ、(2)局所およびグローバルモデルの予測傾向が異質性が増加するにつれて分岐することを示します。
これらの調査結果に動機付けられて、私たちは、自信の矛盾に基づいて擬似ラベルを柔軟に修正できる、グローバルに強化されたアンサンブル(SAGE)の半監視集約と呼ばれるシンプルで効果的な方法を提案します。
この戦略は、誤った擬似適応によって引き起こされるパフォーマンスの劣化を効果的に緩和し、ローカルモデルとグローバルモデル間のコンセンサスを強化します。
実験結果は、SAGEがパフォーマンスと収束の両方で既存のFSSLメソッドを上回ることを示しています。
私たちのコードは、https://github.com/jay-codeman/sageで入手できます

要約(オリジナル)

Federated Semi-Supervised Learning (FSSL) aims to leverage unlabeled data across clients with limited labeled data to train a global model with strong generalization ability. Most FSSL methods rely on consistency regularization with pseudo-labels, converting predictions from local or global models into hard pseudo-labels as supervisory signals. However, we discover that the quality of pseudo-label is largely deteriorated by data heterogeneity, an intrinsic facet of federated learning. In this paper, we study the problem of FSSL in-depth and show that (1) heterogeneity exacerbates pseudo-label mismatches, further degrading model performance and convergence, and (2) local and global models’ predictive tendencies diverge as heterogeneity increases. Motivated by these findings, we propose a simple and effective method called Semi-supervised Aggregation for Globally-Enhanced Ensemble (SAGE), that can flexibly correct pseudo-labels based on confidence discrepancies. This strategy effectively mitigates performance degradation caused by incorrect pseudo-labels and enhances consensus between local and global models. Experimental results demonstrate that SAGE outperforms existing FSSL methods in both performance and convergence. Our code is available at https://github.com/Jay-Codeman/SAGE

arxiv情報

著者 Yijie Liu,Xinyi Shang,Yiqun Zhang,Yang Lu,Chen Gong,Jing-Hao Xue,Hanzi Wang
発行日 2025-03-17 14:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mind the Gap: Confidence Discrepancy Can Guide Federated Semi-Supervised Learning Across Pseudo-Mismatch はコメントを受け付けていません