Exploring Diffusion with Test-Time Training on Efficient Image Restoration

要約

画像の修復は、効果のない特徴融合、計算ボトルネック、非効率的な拡散プロセスなどの課題に直面しています。
これらに対処するために、効率的な拡散を備えたテスト時間トレーニング(TTT)を統一する新しいフレームワークであるdiffrwkvirを提案します。
私たちのアプローチでは、3つの重要な革新を紹介します。(1)OMNIスケールの2D状態進化は、RWKVの位置依存パラメーター化を階層的な多方向2Dスキャンに拡張し、線形複雑さO(L)とのグローバルな文脈的認識を可能にします。
(2)チャンク最適化フラッシュ処理は、連続チャンク処理(O(LCD)の複雑さ)を介してチャンク内並列性を3.2倍加速し、連続的な依存性と計算オーバーヘッドを減らします。
(3)事前に誘導効率の高い拡散抽出は、5〜20ステップでのみコンパクトな画像事前表現(IPR)を抽出し、除去の計算非効率性を解く間、Diffirよりも45%のトレーニング/推論が45%速いことを証明します。
スーパー解像度およびインパインティングベンチマーク(SET5、SET14、BSD100、urban100、Places365)で評価され、diffrwkvirは、PSNR、SSIM、LPIPS、および効率的なメトリックのスウィニール、帽子、およびマンベア/V2を上回ります。
私たちの方法は、最適化されたハードウェア利用を備えた適応的で高効率の画像修復のための新しいパラダイムを確立します。

要約(オリジナル)

Image restoration faces challenges including ineffective feature fusion, computational bottlenecks and inefficient diffusion processes. To address these, we propose DiffRWKVIR, a novel framework unifying Test-Time Training (TTT) with efficient diffusion. Our approach introduces three key innovations: (1) Omni-Scale 2D State Evolution extends RWKV’s location-dependent parameterization to hierarchical multi-directional 2D scanning, enabling global contextual awareness with linear complexity O(L); (2) Chunk-Optimized Flash Processing accelerates intra-chunk parallelism by 3.2x via contiguous chunk processing (O(LCd) complexity), reducing sequential dependencies and computational overhead; (3) Prior-Guided Efficient Diffusion extracts a compact Image Prior Representation (IPR) in only 5-20 steps, proving 45% faster training/inference than DiffIR while solving computational inefficiency in denoising. Evaluated across super-resolution and inpainting benchmarks (Set5, Set14, BSD100, Urban100, Places365), DiffRWKVIR outperforms SwinIR, HAT, and MambaIR/v2 in PSNR, SSIM, LPIPS, and efficiency metrics. Our method establishes a new paradigm for adaptive, high-efficiency image restoration with optimized hardware utilization.

arxiv情報

著者 Rongchang Lu,Tianduo Luo,Yunzhi Zhang,Conghan Yue,Pei Yang,Guibao Liu,Changyang Gu
発行日 2025-06-17 14:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.9 | Exploring Diffusion with Test-Time Training on Efficient Image Restoration はコメントを受け付けていません

MobileHolo: A Lightweight Complex-Valued Deformable CNN for High-Quality Computer-Generated Hologram

要約

ホログラフィックディスプレイは、すべての深さキューを提供する能力により、仮想現実と拡張現実に大きな可能性を秘めています。
ディープラーニングベースの方法は、コンピューター生成ホログラム(CGH)で重要な役割を果たします。
回折プロセス中、各ピクセルは再構築された画像に影響を及ぼします。
ただし、以前の作品は、主にそれらの効果的な受容フィールド(ERF)の不十分さのために、このプロセスを正確にモデル化するのに十分な情報をキャプチャする際の課題に直面しています。
ここでは、ネットワークに統合するための複雑な変形可能な畳み込みを設計し、畳み込みカーネルの形状を動的に調整して、より良い特徴抽出のためにERFの柔軟性を高めることができます。
このアプローチにより、既存のオープンソースモデルを上回る、シミュレートされた実験と光学実験の両方の再構成で最先端のパフォーマンスを達成しながら、単一のモデルを利用できます。
具体的には、私たちの方法は、解像度が1920 $ \ Times $ 1072である場合、それぞれCCNN-CGH、Holonet、およびHolo-Encoderのそれよりも2.04 dB、5.31 dB、および9.71 dBのピーク信号対雑音比を持っています。
モデルのパラメーターの数は、CCNN-CGHのパラメーターの約8分の1にすぎません。

要約(オリジナル)

Holographic displays have significant potential in virtual reality and augmented reality owing to their ability to provide all the depth cues. Deep learning-based methods play an important role in computer-generated holograms (CGH). During the diffraction process, each pixel exerts an influence on the reconstructed image. However, previous works face challenges in capturing sufficient information to accurately model this process, primarily due to the inadequacy of their effective receptive field (ERF). Here, we designed complex-valued deformable convolution for integration into network, enabling dynamic adjustment of the convolution kernel’s shape to increase flexibility of ERF for better feature extraction. This approach allows us to utilize a single model while achieving state-of-the-art performance in both simulated and optical experiment reconstructions, surpassing existing open-source models. Specifically, our method has a peak signal-to-noise ratio that is 2.04 dB, 5.31 dB, and 9.71 dB higher than that of CCNN-CGH, HoloNet, and Holo-encoder, respectively, when the resolution is 1920$\times$1072. The number of parameters of our model is only about one-eighth of that of CCNN-CGH.

arxiv情報

著者 Xie Shuyang,Zhou Jie,Xu Bo,Wang Jun,Xu Renjing
発行日 2025-06-17 14:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.optics | MobileHolo: A Lightweight Complex-Valued Deformable CNN for High-Quality Computer-Generated Hologram はコメントを受け付けていません

DreamLight: Towards Harmonious and Consistent Image Relighting

要約

この作品では、普遍的なイメージの再視照明のためにDreamlightという名前のモデルを紹介します。この作品は、照明と色調の観点から美的均一性を維持しながら、被写体を新しい背景にシームレスに複合することができます。
背景は、自然画像(画像ベースの再視力)で指定するか、無制限のテキストプロンプト(テキストベースの再視力)から生成することができます。
既存の研究は、主に画像ベースの再視力に焦点を当てていますが、テキストベースのシナリオへの探索がわずかです。
一部の作品では、環境マップに依存して関連する情報を提供する複雑な解きだめパイプライン設計を採用しています。これは、固有の分解と光源に必要な高価なデータコストに取り組んでいます。
他の方法は、このタスクを画像翻訳の問題として受け取り、自動エンコーダーアーキテクチャを使用してピクセルレベルの変換を実行します。
これらの方法はまともな調和の影響を達成しましたが、前景と背景の間に現実的で自然光の相互作用効果を生み出すのに苦労しています。
これらの課題を緩和するために、入力データを統一された形式に再編成し、自然な結果の生成を容易にするために、前処理された拡散モデルによって提供されるセマンティック事前を活用します。
さらに、背景の異なる方向から光情報を設計されたライトクエリの埋め込みに凝縮し、方向バイアスのマスクされた注意で前景を調整する位置誘導ライトアダプター(PGLA)を提案します。
さらに、Spectral Foreground Fixer(SFF)という名前の後処理モジュールを提示して、主題と再生された背景のさまざまな周波数成分を適応的に再編成し、前景の一貫性を高めるのに役立ちます。
広範な比較とユーザー調査は、私たちのドリームライトが驚くほどの再生パフォーマンスを達成することを示しています。

要約(オリジナル)

We introduce a model named DreamLight for universal image relighting in this work, which can seamlessly composite subjects into a new background while maintaining aesthetic uniformity in terms of lighting and color tone. The background can be specified by natural images (image-based relighting) or generated from unlimited text prompts (text-based relighting). Existing studies primarily focus on image-based relighting, while with scant exploration into text-based scenarios. Some works employ intricate disentanglement pipeline designs relying on environment maps to provide relevant information, which grapples with the expensive data cost required for intrinsic decomposition and light source. Other methods take this task as an image translation problem and perform pixel-level transformation with autoencoder architecture. While these methods have achieved decent harmonization effects, they struggle to generate realistic and natural light interaction effects between the foreground and background. To alleviate these challenges, we reorganize the input data into a unified format and leverage the semantic prior provided by the pretrained diffusion model to facilitate the generation of natural results. Moreover, we propose a Position-Guided Light Adapter (PGLA) that condenses light information from different directions in the background into designed light query embeddings, and modulates the foreground with direction-biased masked attention. In addition, we present a post-processing module named Spectral Foreground Fixer (SFF) to adaptively reorganize different frequency components of subject and relighted background, which helps enhance the consistency of foreground appearance. Extensive comparisons and user study demonstrate that our DreamLight achieves remarkable relighting performance.

arxiv情報

著者 Yong Liu,Wenpeng Xiao,Qianqian Wang,Junlin Chen,Shiyin Wang,Yitong Wang,Xinglong Wu,Yansong Tang
発行日 2025-06-17 14:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DreamLight: Towards Harmonious and Consistent Image Relighting はコメントを受け付けていません

Risk Estimation of Knee Osteoarthritis Progression via Predictive Multi-task Modelling from Efficient Diffusion Model using X-ray Images

要約

医療イメージングは​​、早期発見と疾患の監視を可能にすることにより、膝の変形性関節症(OA)リスクを評価する上で重要な役割を果たします。
最近の機械学習方法により、医療画像を使用したリスク推定(つまり、疾患の進行の可能性の予測)と予測モデリング(つまり、現在のデータに基づく将来の結果の予測)が改善されましたが、臨床採用は解釈可能性の欠如のために限られています。
リスク推定のために将来の画像を生成する既存のアプローチは、複雑で非現実的です。
さらに、以前の方法は解剖学的膝のランドマークをローカライズすることができず、解釈可能性が制限されています。
これらのギャップは、将来の膝のOAの重症度を分類し、効率的に生成された高品質の将来の画像から解剖学的膝のランドマークを予測するマルチタスク予測モデリングを介して膝OAの進行のリスクを推定するための新しい解釈可能な機械学習方法で対処します。
このような画像の生成は、クラスコンディショニングされた潜在空間で拡散モデルを活用して疾患の進行を予測することで達成され、特定の健康状態がどのように進化するかを視覚的に表現します。
変形性関節症のイニシアチブデータセットに適用されるこのアプローチは、最先端(SOTA)を2 \%改善し、膝OAの進行を予測しながら0.71のAUCを達成し、〜9%速い推論時間を提供します。

要約(オリジナル)

Medical imaging plays a crucial role in assessing knee osteoarthritis (OA) risk by enabling early detection and disease monitoring. Recent machine learning methods have improved risk estimation (i.e., predicting the likelihood of disease progression) and predictive modelling (i.e., the forecasting of future outcomes based on current data) using medical images, but clinical adoption remains limited due to their lack of interpretability. Existing approaches that generate future images for risk estimation are complex and impractical. Additionally, previous methods fail to localize anatomical knee landmarks, limiting interpretability. We address these gaps with a new interpretable machine learning method to estimate the risk of knee OA progression via multi-task predictive modelling that classifies future knee OA severity and predicts anatomical knee landmarks from efficiently generated high-quality future images. Such image generation is achieved by leveraging a diffusion model in a class-conditioned latent space to forecast disease progression, offering a visual representation of how particular health conditions may evolve. Applied to the Osteoarthritis Initiative dataset, our approach improves the state-of-the-art (SOTA) by 2\%, achieving an AUC of 0.71 in predicting knee OA progression while offering ~9% faster inference time.

arxiv情報

著者 David Butler,Adrian Hilton,Gustavo Carneiro
発行日 2025-06-17 14:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Risk Estimation of Knee Osteoarthritis Progression via Predictive Multi-task Modelling from Efficient Diffusion Model using X-ray Images はコメントを受け付けていません

HKD4VLM: A Progressive Hybrid Knowledge Distillation Framework for Robust Multimodal Hallucination and Factuality Detection in VLMs

要約

ビジョン言語モデル(VLMS)の急速な進歩に牽引されているため、大規模なマルチモーダルモデルの責任ある行動は、特に幻覚の検出と事実チェックに焦点を当てた顕著な研究分野になりました。
この論文では、責任あるAIチャレンジの2つのトラックのソリューションを紹介します。
一般的なドメインからのインスピレーションは、より小さな蒸留VLMが、より高い効率を達成しながら、下流のタスクで直接調整されたより大きなVLMよりも優れていることが多いことを示しています。
したがって、知識の蒸留の観点から2つのタスクに共同で取り組み、HKD4VLMと呼ばれる進歩的なハイブリッド知識蒸留フレームワークを提案します。
具体的には、全体的なフレームワークは、ピラミッドのような進行性のオンライン蒸留と三元結合洗練の蒸留に分解し、粗粒の知識アライメントから細粒の洗練に階層的に移動します。
また、モデルのパフォーマンスと堅牢性を高めるために、マッピングシフト強化推論と多様な増強戦略をさらに導入します。
広範な実験結果は、HKD4VLMの有効性を示しています。
アブレーション研究は、パフォーマンスの向上を促進する重要な設計の選択に関する洞察を提供します。

要約(オリジナル)

Driven by the rapid progress in vision-language models (VLMs), the responsible behavior of large-scale multimodal models has become a prominent research area, particularly focusing on hallucination detection and factuality checking. In this paper, we present the solution for the two tracks of Responsible AI challenge. Inspirations from the general domain demonstrate that a smaller distilled VLM can often outperform a larger VLM that is directly tuned on downstream tasks, while achieving higher efficiency. We thus jointly tackle two tasks from the perspective of knowledge distillation and propose a progressive hybrid knowledge distillation framework termed HKD4VLM. Specifically, the overall framework can be decomposed into Pyramid-like Progressive Online Distillation and Ternary-Coupled Refinement Distillation, hierarchically moving from coarse-grained knowledge alignment to fine-grained refinement. Besides, we further introduce the mapping shift-enhanced inference and diverse augmentation strategies to enhance model performance and robustness. Extensive experimental results demonstrate the effectiveness of our HKD4VLM. Ablation studies provide insights into the critical design choices driving performance gains.

arxiv情報

著者 Zijian Zhang,Xuecheng Wu,Danlei Huang,Siyu Yan,Chong Peng,Xuezhi Cao
発行日 2025-06-17 14:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | HKD4VLM: A Progressive Hybrid Knowledge Distillation Framework for Robust Multimodal Hallucination and Factuality Detection in VLMs はコメントを受け付けていません

Busting the Paper Ballot: Voting Meets Adversarial Machine Learning

要約

米国の選挙集計機で機械学習分類子を使用することに関連するセキュリティリスクを示します。
選挙集計の中央分類タスクは、投票のコンテストで代替案に関連するバブルにマークが表示されるかどうかを決定することです。
Barretto et al。
(e-vote-id 2021)は、単純な機能ベースの分類子よりも優れているため、この分野では畳み込みニューラルネットワークが実行可能なオプションであると報告しました。
選挙の安全保障への貢献は、4つの部分に分けることができます。
選挙集計機の機械学習モデルの仮説的な脆弱性を実証および分析するために、最初に4つの新しい投票データセットを紹介します。
第二に、新しいデータセットでさまざまなモデルをトレーニングおよびテストします。
これらのモデルには、サポートベクターマシン、畳み込みニューラルネットワーク(基本的なCNN、VGG、ResNet)、および視覚変圧器(双子とCAIT)が含まれます。
第三に、新しいデータセットと訓練されたモデルを使用して、勾配マスキングのために、従来のホワイトボックス攻撃が投票ドメインで効果がないことを示しています。
私たちの分析により、勾配マスキングは数値不安定性の産物であることがさらに明らかになりました。
この問題を克服するために、修正されたロジッツ比損失の違いを使用しています(Croce and Hein、ICML 2020)。
第4に、物理的な世界では、新しい方法を使用して生成された敵対的な例で攻撃を行います。
従来の敵対的な機械学習では、高い(50%以上)攻撃成功率が理想的です。
ただし、特定の選挙では、5%の攻撃成功率でさえ、人種の結果をひっくり返す可能性があります。
物理ドメインでこのような影響が可能であることを示します。
攻撃のリアリズムと、投票の敵対的な例の印刷とスキャンに関連する課題と実用性について徹底的に議論します。

要約(オリジナル)

We show the security risk associated with using machine learning classifiers in United States election tabulators. The central classification task in election tabulation is deciding whether a mark does or does not appear on a bubble associated to an alternative in a contest on the ballot. Barretto et al. (E-Vote-ID 2021) reported that convolutional neural networks are a viable option in this field, as they outperform simple feature-based classifiers. Our contributions to election security can be divided into four parts. To demonstrate and analyze the hypothetical vulnerability of machine learning models on election tabulators, we first introduce four new ballot datasets. Second, we train and test a variety of different models on our new datasets. These models include support vector machines, convolutional neural networks (a basic CNN, VGG and ResNet), and vision transformers (Twins and CaiT). Third, using our new datasets and trained models, we demonstrate that traditional white box attacks are ineffective in the voting domain due to gradient masking. Our analyses further reveal that gradient masking is a product of numerical instability. We use a modified difference of logits ratio loss to overcome this issue (Croce and Hein, ICML 2020). Fourth, in the physical world, we conduct attacks with the adversarial examples generated using our new methods. In traditional adversarial machine learning, a high (50% or greater) attack success rate is ideal. However, for certain elections, even a 5% attack success rate can flip the outcome of a race. We show such an impact is possible in the physical domain. We thoroughly discuss attack realism, and the challenges and practicality associated with printing and scanning ballot adversarial examples.

arxiv情報

著者 Kaleel Mahmood,Caleb Manicke,Ethan Rathbun,Aayushi Verma,Sohaib Ahmad,Nicholas Stamatakis,Laurent Michel,Benjamin Fuller
発行日 2025-06-17 14:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Busting the Paper Ballot: Voting Meets Adversarial Machine Learning はコメントを受け付けていません

Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet’s Performance with Automatically Generated Document Images

要約

スマートフォンまたはスキャナーがキャプチャしたドキュメントページにはテーブルが含まれていることがよくありますが、手動抽出は遅く、エラーが発生しやすいです。
視覚的に多様なテーブルレイアウトと整列したグラウンドトゥルースマスクを備えた現実的な2列ページを合成する自動ラテックスベースのパイプラインを導入します。
生成されたコーパスは、現実世界のマーモットベンチマークを増強し、TableNetの体系的な解決研究を可能にします。
合成データでTableNetをトレーニングすると、256×256の入力解像度で合成テストセットで4.04%のピクセルごとのXORエラーが得られ、1024×1024で4.33%が達成されます。
マーモットベンチマークで最高のパフォーマンスは9.18%(256×256)であり、自動化を通じて手動注釈の取り組みを削減します。

要約(オリジナル)

Document pages captured by smartphones or scanners often contain tables, yet manual extraction is slow and error-prone. We introduce an automated LaTeX-based pipeline that synthesizes realistic two-column pages with visually diverse table layouts and aligned ground-truth masks. The generated corpus augments the real-world Marmot benchmark and enables a systematic resolution study of TableNet. Training TableNet on our synthetic data achieves a pixel-wise XOR error of 4.04% on our synthetic test set with a 256×256 input resolution, and 4.33% with 1024×1024. The best performance on the Marmot benchmark is 9.18% (at 256×256), while cutting manual annotation effort through automation.

arxiv情報

著者 Krishna Sahukara,Zineddine Bettouche,Andreas Fischer
発行日 2025-06-17 14:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet’s Performance with Automatically Generated Document Images はコメントを受け付けていません

PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation

要約

既存の単眼3Dポーズ推定方法は、主に関節の位置の特徴に依存していますが、骨格内の固有の方向性と角度相関を見下ろしています。
その結果、彼らはしばしば関節閉塞または急速な動きの変化の下で信じられないポーズを生成します。
これらの課題に対処するために、ポセグラフフレームワークを提案します。
まず、ジョイントグラフと骨グラフを個別に処理し、ローカル依存関係を効果的にキャプチャするデュアルグラフ畳み込み構造を構築します。
次に、骨の方向と関節の特徴の間のモデルの相互依存関係をモデル化するために、クロスアテンションモジュールが導入されます。
これに基づいて、動的融合モジュールは、ジョイントと骨の間のリレーショナル依存性を活用することにより、両方の特徴を適応的に統合するように設計されています。
改良されたトランスエンコーダーは、最終出力を生成するために残りの方法でさらに組み込まれます。
Human3.6MおよびMPI-INF-3DHPデータセットの実験結果は、この方法が最先端のアプローチを超えていることを示しています。
野生のビデオでの追加の評価は、その一般化可能性をさらに検証します。
このコードは、https://github.com/icitylab/posegrafで公開されています。

要約(オリジナル)

Existing monocular 3D pose estimation methods primarily rely on joint positional features, while overlooking intrinsic directional and angular correlations within the skeleton. As a result, they often produce implausible poses under joint occlusions or rapid motion changes. To address these challenges, we propose the PoseGRAF framework. We first construct a dual graph convolutional structure that separately processes joint and bone graphs, effectively capturing their local dependencies. A Cross-Attention module is then introduced to model interdependencies between bone directions and joint features. Building upon this, a dynamic fusion module is designed to adaptively integrate both feature types by leveraging the relational dependencies between joints and bones. An improved Transformer encoder is further incorporated in a residual manner to generate the final output. Experimental results on the Human3.6M and MPI-INF-3DHP datasets show that our method exceeds state-of-the-art approaches. Additional evaluations on in-the-wild videos further validate its generalizability. The code is publicly available at https://github.com/iCityLab/PoseGRAF.

arxiv情報

著者 Ming Xu,Xu Zhang
発行日 2025-06-17 14:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation はコメントを受け付けていません

ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation

要約

透明なオブジェクトの深さの知覚は、主に標準的な3Dセンサーが透過性または反射面の深さを正確にキャプチャできないため、日常生活とロジスティクスに課題をもたらします。
この制限は、特にロボット操作において、深度マップとポイントクラウドに依存するアプリケーションに大きく影響します。
透明なオブジェクトのステレオ深度回復のためのビジョントランスベースのアルゴリズムを開発しました。
このアプローチは、画像の構造的特徴による深度回復の精度を高める革新的な機能ポストフュージョンモジュールによって補完されます。
透明なオブジェクトのステレオカメラベースの知覚のためのデータセットコレクションに関連する高コストに対処するために、この方法には、AIアルゴリズムによって加速される効率的なデータ生成のために、パラメーターに合わせた、ドメイン適応、および物理的に現実的なSIM2realシミュレーションを組み込みます。
私たちの実験結果は、現実世界のシナリオにおけるモデルの並外れたSIM2realの一般化可能性を示しており、透明なオブジェクトの正確な深さマッピングがロボット操作を支援できるようにします。
プロジェクトの詳細は、https://sites.google.com/view/cleardepth/で入手できます。

要約(オリジナル)

Transparent object depth perception poses a challenge in everyday life and logistics, primarily due to the inability of standard 3D sensors to accurately capture depth on transparent or reflective surfaces. This limitation significantly affects depth map and point cloud-reliant applications, especially in robotic manipulation. We developed a vision transformer-based algorithm for stereo depth recovery of transparent objects. This approach is complemented by an innovative feature post-fusion module, which enhances the accuracy of depth recovery by structural features in images. To address the high costs associated with dataset collection for stereo camera-based perception of transparent objects, our method incorporates a parameter-aligned, domain-adaptive, and physically realistic Sim2Real simulation for efficient data generation, accelerated by AI algorithm. Our experimental results demonstrate the model’s exceptional Sim2Real generalizability in real-world scenarios, enabling precise depth mapping of transparent objects to assist in robotic manipulation. Project details are available at https://sites.google.com/view/cleardepth/ .

arxiv情報

著者 Kaixin Bai,Huajian Zeng,Lei Zhang,Yiwen Liu,Hongli Xu,Zhaopeng Chen,Jianwei Zhang
発行日 2025-06-17 15:03:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation はコメントを受け付けていません

Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks

要約

高高度プラットフォームステーション(HAPS)によってサポートされている非地球ネットワーク(NTN)におけるフェデレートラーニング(FL)の展開は、多くの利点を提供します。
フットプリントが大きいため、多数の見通し(LOS)グラウンドクライアントとの相互作用が容易になり、それぞれが異なるコミュニケーション機能と計算機能とともに多様なデータセットを所有しています。
多くのクライアントの存在は、FLモデルの精度を高め、収束をスピードアップします。
ただし、これらのクライアント間のさまざまなデータセットは、広範な非独立と同一に分布した(非IID)データにつながるため、重要な課題をもたらします。
データの非容量により、トレーニングの精度が著​​しく低下し、収束率が遅くなります。
この問題に対処するために、履歴トラフィックパターン、瞬時チャネル条件、計算機能、以前の学習パフォーマンスなど、複数のユーザー固有の属性を活用する新しい加重属性ベースのクライアント選択戦略を提案します。
これらの属性をすべてのFLラウンドで各ユーザーの複合スコアに組み合わせ、FLクライアントとしてより高いスコアを持つユーザーを選択することにより、フレームワークはより均一で代表的なデータ分布を保証し、非IIDデータの悪影響を効果的に軽減します。
シミュレーション結果は、大規模なFLシステムの実装におけるデータの非具体性の重要な課題に効果的に対処することにより、FLモデルの精度と収束率を高めるだけでなく、トレーニングの損失を減らすための提案されたクライアント選択戦略の有効性を裏付けています。

要約(オリジナル)

The deployment of federated learning (FL) in non-terrestrial networks (NTN) that are supported by high-altitude platform stations (HAPS) offers numerous advantages. Due to its large footprint, it facilitates interaction with a large number of line-of-sight (LoS) ground clients, each possessing diverse datasets along with distinct communication and computational capabilities. The presence of many clients enhances the accuracy of the FL model and speeds up convergence. However, the variety of datasets among these clients poses a significant challenge, as it leads to pervasive non-independent and identically distributed (non-IID) data. The data non-IIDness results in markedly reduced training accuracy and slower convergence rates. To address this issue, we propose a novel weighted attribute-based client selection strategy that leverages multiple user-specific attributes, including historical traffic patterns, instantaneous channel conditions, computational capabilities, and previous-round learning performance. By combining these attributes into a composite score for each user at every FL round and selecting users with higher scores as FL clients, the framework ensures more uniform and representative data distributions, effectively mitigating the adverse effects of non-IID data. Simulation results corroborate the effectiveness of the proposed client selection strategy in enhancing FL model accuracy and convergence rate, as well as reducing training loss, by effectively addressing the critical challenge of data non-IIDness in large-scale FL system implementations.

arxiv情報

著者 Amin Farajzadeh,Animesh Yadav,Halim Yanikomeroglu
発行日 2025-06-17 15:04:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NI | Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks はコメントを受け付けていません