ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving

要約

自律走行において、信頼性の高い3次元物体認識は不可欠である。あらゆる気象条件下でのセンシング能力を持つ4Dレーダーは、最近注目を集めている。しかし、LiDARに比べ、4Dレーダーは点群データが少ない。本論文では、4Dレーダーと視覚モダリティを融合したZFusionと呼ばれる3D物体検出法を提案する。ZFusionの中核として、我々の提案するFP-DDCA(Feature Pyramid-Double Deformable Cross Attention)フューザーは、(疎な)レーダー情報と(密な)視覚情報を効果的に補完する。具体的には、特徴ピラミッド構造を持つFP-DDCAフューザーは、異なるスケールのマルチモーダル特徴をインタラクティブに融合するためのTransformerブロックを搭載し、知覚精度を向上させます。さらに、4Dレーダーの物理的特性により、Depth-Context-Splitビュー変換モジュールを利用する。4DレーダーがLiDARよりもはるかに低コストであることを考慮すると、ZFusionはLiDARベースの手法に代わる魅力的な選択肢となります。VoD(View-of-Delft)データセットのような典型的な交通シナリオにおいて、ZFusionは妥当な推論速度で、ベースライン手法と比較して、全領域において競争力のあるmAPを持ちながら、関心領域において最先端のmAP(平均平均精度)を達成し、LiDARに近い性能を示し、カメラのみの手法を大きく上回ることが実験で示されました。

要約(オリジナル)

Reliable 3D object perception is essential in autonomous driving. Owing to its sensing capabilities in all weather conditions, 4D radar has recently received much attention. However, compared to LiDAR, 4D radar provides much sparser point cloud. In this paper, we propose a 3D object detection method, termed ZFusion, which fuses 4D radar and vision modality. As the core of ZFusion, our proposed FP-DDCA (Feature Pyramid-Double Deformable Cross Attention) fuser complements the (sparse) radar information and (dense) vision information, effectively. Specifically, with a feature-pyramid structure, the FP-DDCA fuser packs Transformer blocks to interactively fuse multi-modal features at different scales, thus enhancing perception accuracy. In addition, we utilize the Depth-Context-Split view transformation module due to the physical properties of 4D radar. Considering that 4D radar has a much lower cost than LiDAR, ZFusion is an attractive alternative to LiDAR-based methods. In typical traffic scenarios like the VoD (View-of-Delft) dataset, experiments show that with reasonable inference speed, ZFusion achieved the state-of-the-art mAP (mean average precision) in the region of interest, while having competitive mAP in the entire area compared to the baseline methods, which demonstrates performance close to LiDAR and greatly outperforms those camera-only methods.

arxiv情報

著者 Sheng Yang,Tong Zhan,Shichen Qiao,Jicheng Gong,Qing Yang,Yanfeng Lu,Jian Wang
発行日 2025-04-04 13:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving はコメントを受け付けていません

Early detection of diabetes through transfer learning-based eye (vision) screening and improvement of machine learning model performance and advanced parameter setting algorithms

要約

糖尿病性網膜症(DR)は糖尿病の合併症のひとつで、高血糖状態が長く続くことで網膜の細い血管が障害されることで発症する、重篤かつ一般的な疾患である。糖尿病網膜症を治療せずに放置すると、網膜静脈閉塞症に進行し、血管の異常な成長を促し、失明のリスクを著しく高める。従来の糖尿病診断法では、網膜画像から視覚的特徴を抽出するために畳み込みニューラルネットワーク(CNN)を利用し、その後に決定木やKNN(k-nearest neighbors)などの分類アルゴリズムを利用して病気を検出することが多い。しかし、これらのアプローチは、精度と感度が低いこと、データの複雑さと量が多いため機械学習(ML)モデルのトレーニングに時間がかかること、テストと評価に限られたデータセットを使用することなど、いくつかの課題に直面している。本研究では、DR検出におけるMLモデルの性能を向上させるために、転移学習(Transfer Learning: TL)を適用することを検討する。主な改善点として、次元削減、最適化された学習率調整、高度なパラメータ調整アルゴリズムがあり、効率と診断精度の向上を目指している。提案モデルは、テストデータセットにおいて84%の総合精度を達成し、先行研究を凌駕した。クラス別の最高精度は89%に達し、最大感度は97%、F1スコアは92%であり、DR症例の同定において高い性能を示した。これらの結果は、TLに基づくDRスクリーニングが早期診断の有望なアプローチであり、視力低下を予防し患者の転帰を改善するためのタイムリーな介入を可能にすることを示唆している。

要約(オリジナル)

Diabetic Retinopathy (DR) is a serious and common complication of diabetes, caused by prolonged high blood sugar levels that damage the small retinal blood vessels. If left untreated, DR can progress to retinal vein occlusion and stimulate abnormal blood vessel growth, significantly increasing the risk of blindness. Traditional diabetes diagnosis methods often utilize convolutional neural networks (CNNs) to extract visual features from retinal images, followed by classification algorithms such as decision trees and k-nearest neighbors (KNN) for disease detection. However, these approaches face several challenges, including low accuracy and sensitivity, lengthy machine learning (ML) model training due to high data complexity and volume, and the use of limited datasets for testing and evaluation. This study investigates the application of transfer learning (TL) to enhance ML model performance in DR detection. Key improvements include dimensionality reduction, optimized learning rate adjustments, and advanced parameter tuning algorithms, aimed at increasing efficiency and diagnostic accuracy. The proposed model achieved an overall accuracy of 84% on the testing dataset, outperforming prior studies. The highest class-specific accuracy reached 89%, with a maximum sensitivity of 97% and an F1-score of 92%, demonstrating strong performance in identifying DR cases. These findings suggest that TL-based DR screening is a promising approach for early diagnosis, enabling timely interventions to prevent vision loss and improve patient outcomes.

arxiv情報

著者 Mohammad Reza Yousefi,Ali Bakrani,Amin Dehghani
発行日 2025-04-04 13:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV, eess.SP | Early detection of diabetes through transfer learning-based eye (vision) screening and improvement of machine learning model performance and advanced parameter setting algorithms はコメントを受け付けていません

Know What You do Not Know: Verbalized Uncertainty Estimation Robustness on Corrupted Images in Vision-Language Models

要約

ラージ・ランゲージ・モデル(LLM)の可能性を最大限に活用するためには、回答の不確実性に関する情報を持つことが極めて重要である。これは、モデルが与えられた回答の正しさをどの程度確信しているかを定量化できる必要があることを意味する。不確実性の見積もりが悪いと、過信して間違った回答をすることになり、モデルの信頼が損なわれます。テキスト入力で動作し、テキスト出力を提供する言語モデルについては、かなり多くの研究が行われてきた。しかし、これらのモデルに視覚的機能が追加されたのは最近のことであるため、視覚言語モデル(VLM)の不確実性についてはあまり研究が進んでいない。我々は3つの最先端のVLMを破損した画像データでテストした。その結果、破損の程度がモデルの不確実性推定能力に悪影響を及ぼし、ほとんどの実験でモデルが過信を示すことがわかった。

要約(オリジナル)

To leverage the full potential of Large Language Models (LLMs) it is crucial to have some information on their answers’ uncertainty. This means that the model has to be able to quantify how certain it is in the correctness of a given response. Bad uncertainty estimates can lead to overconfident wrong answers undermining trust in these models. Quite a lot of research has been done on language models that work with text inputs and provide text outputs. Still, since the visual capabilities have been added to these models recently, there has not been much progress on the uncertainty of Visual Language Models (VLMs). We tested three state-of-the-art VLMs on corrupted image data. We found that the severity of the corruption negatively impacted the models’ ability to estimate their uncertainty and the models also showed overconfidence in most of the experiments.

arxiv情報

著者 Mirko Borszukovszki,Ivo Pascal de Jong,Matias Valdenegro-Toro
発行日 2025-04-04 13:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Know What You do Not Know: Verbalized Uncertainty Estimation Robustness on Corrupted Images in Vision-Language Models はコメントを受け付けていません

Pyramid-based Mamba Multi-class Unsupervised Anomaly Detection

要約

最近の畳み込みニューラルネットワーク(CNN)と変換器ベースの手法の進歩により、異常検出とローカライゼーションが改善されたが、小さな異常を正確にローカライズすることには課題が残る。CNNは長距離依存性を捉えることに限界がある一方、変換器アーキテクチャはしばしば計算オーバーヘッドに悩まされる。我々は、状態空間モデル(SSM)に基づく、マルチクラス異常検出とローカライゼーションのためのピラミッド走査戦略(PSS)を紹介する。本手法は、マルチスケール特徴抽出のために事前に訓練されたエンコーダと特徴レベルの合成異常発生器とPSSを統合することにより、複数のスケールできめ細かい詳細を捉える。MVTecベンチマークにおいて、マルチクラス異常局在化のAPが$+1%$改善し、AU-PROが$+1%$増加した。コードは https://github.com/iqbalmlpuniud/Pyramid Mambaで入手可能です。

要約(オリジナル)

Recent advances in convolutional neural networks (CNNs) and transformer-based methods have improved anomaly detection and localization, but challenges persist in precisely localizing small anomalies. While CNNs face limitations in capturing long-range dependencies, transformer architectures often suffer from substantial computational overheads. We introduce a state space model (SSM)-based Pyramidal Scanning Strategy (PSS) for multi-class anomaly detection and localization–a novel approach designed to address the challenge of small anomaly localization. Our method captures fine-grained details at multiple scales by integrating the PSS with a pre-trained encoder for multi-scale feature extraction and a feature-level synthetic anomaly generator. An improvement of $+1\%$ AP for multi-class anomaly localization and a +$1\%$ increase in AU-PRO on MVTec benchmark demonstrate our method’s superiority in precise anomaly localization across diverse industrial scenarios. The code is available at https://github.com/iqbalmlpuniud/Pyramid Mamba.

arxiv情報

著者 Nasar Iqbal,Niki Martinel
発行日 2025-04-04 13:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Pyramid-based Mamba Multi-class Unsupervised Anomaly Detection はコメントを受け付けていません

D-Garment: Physics-Conditioned Latent Diffusion for Dynamic Garment Deformations

要約

体型、体の動き、布の素材に合わせて3D衣服を調整・変形させることは、仮想現実や拡張現実における重要な問題である。バーチャル更衣室からエンターテイメントやゲーム産業まで、その用途は多岐にわたります。この問題は、衣服のダイナミクスがしわのパターンなどの幾何学的な詳細に影響するため困難であり、着用者の体型や動き、布素材の特徴などの物理的な入力に依存する。既存の研究では、サンプルデータから衣服の変形を生成するための学習ベースのモデリング技術や、現実的な衣服のダイナミクスを生成するための物理学にヒントを得たシミュレータが研究されている。我々は、物理ベースのシミュレータで生成されたデータで学習させた学習ベースのアプローチを提案する。先行研究と比較して、我々の3D生成モデルは、ルーズな布の形状に対する衣服の変形を学習し、特に体の動きと布の素材によって駆動される大きな変形と動的な皺を学習する。さらに、このモデルは、ビジョンセンサーを用いて取得した観察結果に効率的に適合させることができる。我々は、拡散モデルの能力を活用して、細かいスケールの詳細を学習することを提案する。2Dパラメータ空間で3D衣服をモデル化し、メッシュ解像度から独立したこの表現を使って潜在拡散モデルを学習する。これにより、大局的・局所的な幾何学的情報を身体や素材の情報と条件付けることができる。本手法を、シミュレーションデータとマルチビュー撮影プラットフォームで撮影したデータの両方で定量的・定性的に評価する。強力なベースラインと比較して、我々の手法は面取り距離の点でより正確である。

要約(オリジナル)

Adjusting and deforming 3D garments to body shapes, body motion, and cloth material is an important problem in virtual and augmented reality. Applications are numerous, ranging from virtual change rooms to the entertainment and gaming industry. This problem is challenging as garment dynamics influence geometric details such as wrinkling patterns, which depend on physical input including the wearer’s body shape and motion, as well as cloth material features. Existing work studies learning-based modeling techniques to generate garment deformations from example data, and physics-inspired simulators to generate realistic garment dynamics. We propose here a learning-based approach trained on data generated with a physics-based simulator. Compared to prior work, our 3D generative model learns garment deformations for loose cloth geometry, especially for large deformations and dynamic wrinkles driven by body motion and cloth material. Furthermore, the model can be efficiently fitted to observations captured using vision sensors. We propose to leverage the capability of diffusion models to learn fine-scale detail: we model the 3D garment in a 2D parameter space, and learn a latent diffusion model using this representation independent from the mesh resolution. This allows to condition global and local geometric information with body and material information. We quantitatively and qualitatively evaluate our method on both simulated data and data captured with a multi-view acquisition platform. Compared to strong baselines, our method is more accurate in terms of Chamfer distance.

arxiv情報

著者 Antoine Dumoulin,Adnane Boukhayma,Laurence Boissieux,Bharath Bhushan Damodaran,Pierre Hellier,Stefanie Wuhrer
発行日 2025-04-04 14:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | D-Garment: Physics-Conditioned Latent Diffusion for Dynamic Garment Deformations はコメントを受け付けていません

InterDyn: Controllable Interactive Dynamics with Video Diffusion Models

要約

相互作用する物体のダイナミクスを予測することは、人間にとっても知的システムにとっても不可欠である。しかし、既存のアプローチは単純化されたおもちゃの設定に限定されており、複雑な実世界環境に対する一般化可能性に欠けている。生成モデルにおける最近の進歩は、介入に基づく状態遷移の予測を可能にしているが、相互作用から生じる連続的なダイナミクスを無視した単一の未来状態の生成に焦点を当てている。このギャップに対処するために、我々はInterDynを提案する。InterDynは、初期フレームと、駆動オブジェクトやアクターの動きをエンコードする制御信号が与えられた場合に、対話的ダイナミクスの動画を生成する新しいフレームワークである。我々の重要な洞察は、大規模なビデオデータからインタラクティブダイナミクスを学習した大規模なビデオ生成モデルは、神経レンダラーとしても暗黙の物理“シミュレーター”としても機能することである。この能力を効果的に利用するために、我々は、駆動エンティティの動きにビデオ生成プロセスを条件付ける対話型制御メカニズムを導入する。定性的な結果は、InterDynが複雑なオブジェクトの相互作用のもっともらしく時間的に一貫性のあるビデオを生成し、同時に未見のオブジェクトにも汎化することを示している。定量的な評価では、InterDynは静的な状態遷移に焦点を当てたベースラインを凌駕している。この研究は、暗黙の物理エンジンとしてビデオ生成モデルを活用する可能性を強調している。プロジェクトページ: https://interdyn.is.tue.mpg.de/

要約(オリジナル)

Predicting the dynamics of interacting objects is essential for both humans and intelligent systems. However, existing approaches are limited to simplified, toy settings and lack generalizability to complex, real-world environments. Recent advances in generative models have enabled the prediction of state transitions based on interventions, but focus on generating a single future state which neglects the continuous dynamics resulting from the interaction. To address this gap, we propose InterDyn, a novel framework that generates videos of interactive dynamics given an initial frame and a control signal encoding the motion of a driving object or actor. Our key insight is that large video generation models can act as both neural renderers and implicit physics “simulators”, having learned interactive dynamics from large-scale video data. To effectively harness this capability, we introduce an interactive control mechanism that conditions the video generation process on the motion of the driving entity. Qualitative results demonstrate that InterDyn generates plausible, temporally consistent videos of complex object interactions while generalizing to unseen objects. Quantitative evaluations show that InterDyn outperforms baselines that focus on static state transitions. This work highlights the potential of leveraging video generative models as implicit physics engines. Project page: https://interdyn.is.tue.mpg.de/

arxiv情報

著者 Rick Akkerman,Haiwen Feng,Michael J. Black,Dimitrios Tzionas,Victoria Fernández Abrevaya
発行日 2025-04-04 14:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | InterDyn: Controllable Interactive Dynamics with Video Diffusion Models はコメントを受け付けていません

Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis

要約

従来の拡散モデルは、一般的にU-Netアーキテクチャを採用している。これまでの研究では、U-Netにおける注目ブロックの役割が明らかにされてきた。しかし、それらは推論過程における重要度の動的な変化を見落としており、画像アプリケーションを改善するためのさらなる活用を妨げている。本研究では、まず、U-Net内のTransformerブロックの出力を再重み付けすることが、サンプリングプロセス中のS/N比を改善するための「フリーランチ」であることを理論的に証明した。次に、ノイズ除去プロセスにおけるTransformerブロックの重要度の動的な変化を明らかにし、定量化するためのImportance Probeを提案した。最後に、特定の画像生成・編集タスクに合わせた適応的な重要度ベースの再重み付けスケジュールを設計する。実験結果は、我々のアプローチが推論プロセスの効率を大幅に改善し、同一性の一貫性を持つサンプルの美的品質を向上させることを示している。本手法は、あらゆるU-Netベースのアーキテクチャにシームレスに統合することができる。コード: https://github.com/Hytidel/UNetReweighting

要約(オリジナル)

Traditional diffusion models typically employ a U-Net architecture. Previous studies have unveiled the roles of attention blocks in the U-Net. However, they overlook the dynamic evolution of their importance during the inference process, which hinders their further exploitation to improve image applications. In this study, we first theoretically proved that, re-weighting the outputs of the Transformer blocks within the U-Net is a ‘free lunch’ for improving the signal-to-noise ratio during the sampling process. Next, we proposed Importance Probe to uncover and quantify the dynamic shifts in importance of the Transformer blocks throughout the denoising process. Finally, we design an adaptive importance-based re-weighting schedule tailored to specific image generation and editing tasks. Experimental results demonstrate that, our approach significantly improves the efficiency of the inference process, and enhances the aesthetic quality of the samples with identity consistency. Our method can be seamlessly integrated into any U-Net-based architecture. Code: https://github.com/Hytidel/UNetReweighting

arxiv情報

著者 Xi Wang,Ziqi He,Yang Zhou
発行日 2025-04-04 14:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis はコメントを受け付けていません

Real-time Video Prediction With Fast Video Interpolation Model and Prediction Training

要約

伝送遅延は、リアルタイムのインタラクションやアクチュエーションにおけるユーザーの体験品質に大きく影響する。遅延は基本的に不可避であるため、ビデオ予測を利用することで遅延を軽減し、最終的には遅延ゼロの伝送を可能にすることができる。しかし、既存のビデオ予測手法のほとんどは計算コストが高く、リアルタイムアプリケーションには実用的ではない。そこで本研究では、IFRVP(Intermediate Feature Refinement Video Prediction)と呼ばれる、ネットワークを介したゼロ遅延インタラクションに向けたリアルタイムビデオ予測を提案する。まず、IFRNetに基づく単純な畳み込みのみのフレーム補間ネットワークを利用し、フレーム補間モデルを拡張した映像予測のための3つの学習方法を提案する。第二に、ELANベースの残差ブロックを予測モデルに導入し、推論速度と精度の両方を向上させる。我々の評価により、提案モデルが効率的に動作し、既存の動画予測手法の中で予測精度と計算速度の間の最良のトレードオフを達成することが示された。デモムービーもhttp://bit.ly/IFRVPDemo。コードはhttps://github.com/FykAikawa/IFRVP。

要約(オリジナル)

Transmission latency significantly affects users’ quality of experience in real-time interaction and actuation. As latency is principally inevitable, video prediction can be utilized to mitigate the latency and ultimately enable zero-latency transmission. However, most of the existing video prediction methods are computationally expensive and impractical for real-time applications. In this work, we therefore propose real-time video prediction towards the zero-latency interaction over networks, called IFRVP (Intermediate Feature Refinement Video Prediction). Firstly, we propose three training methods for video prediction that extend frame interpolation models, where we utilize a simple convolution-only frame interpolation network based on IFRNet. Secondly, we introduce ELAN-based residual blocks into the prediction models to improve both inference speed and accuracy. Our evaluations show that our proposed models perform efficiently and achieve the best trade-off between prediction accuracy and computational speed among the existing video prediction methods. A demonstration movie is also provided at http://bit.ly/IFRVPDemo. The code will be released at https://github.com/FykAikawa/IFRVP.

arxiv情報

著者 Shota Hirose,Kazuki Kotoyori,Kasidis Arunruangsirilert,Fangzheng Lin,Heming Sun,Jiro Katto
発行日 2025-04-04 14:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Real-time Video Prediction With Fast Video Interpolation Model and Prediction Training はコメントを受け付けていません

Multi-encoder nnU-Net outperforms Transformer models with self-supervised pretraining

要約

本研究では、医用画像中の解剖学的構造や病理学的領域を自動的に識別・描出する、医用画像セグメンテーションの本質的な課題に取り組む。正確なセグメンテーションは、腫瘍のような異常部位の正確な位置特定を支援し、それによって効果的な診断、治療計画、および疾患の進行のモニタリングを可能にするため、放射線医学において極めて重要である。特に、腫瘍の大きさ、形状、位置は、臨床上の意思決定や治療戦略に大きく影響するため、正確なセグメンテーションは放射線ワークフローの重要な要素となっている。しかし、MRIモダリティのばらつき、画像アーチファクト、ラベル付けされたデータの不足がもたらす課題は、セグメンテーションタスクを複雑にし、従来のモデルの性能に影響を与える。これらの限界を克服するために、我々は、複数のMRIモダリティを別々のエンコーダを通して独立に処理するように設計された、新しい自己教師付き学習マルチエンコーダnnU-Netアーキテクチャを提案する。このアプローチにより、最終的なセグメンテーションのためにそれらを融合する前に、モデルがモダリティ固有の特徴を捉えることが可能となり、精度が向上する。我々のマルチエンコーダnnU-Netは、バニラnnU-Net、SegResNet、Swin UNETRなどの他のモデルを上回る93.72%のダイス類似度係数(DSC)を達成し、卓越した性能を示す。各モダリティが提供するユニークな情報を活用することで、このモデルは、特にアノテーションデータが限られたシナリオにおいて、セグメンテーションタスクを強化する。評価により、腫瘍のセグメンテーション結果の改善におけるこのアーキテクチャの有効性が明らかになった。

要約(オリジナル)

This study addresses the essential task of medical image segmentation, which involves the automatic identification and delineation of anatomical structures and pathological regions in medical images. Accurate segmentation is crucial in radiology, as it aids in the precise localization of abnormalities such as tumors, thereby enabling effective diagnosis, treatment planning, and monitoring of disease progression. Specifically, the size, shape, and location of tumors can significantly influence clinical decision-making and therapeutic strategies, making accurate segmentation a key component of radiological workflows. However, challenges posed by variations in MRI modalities, image artifacts, and the scarcity of labeled data complicate the segmentation task and impact the performance of traditional models. To overcome these limitations, we propose a novel self-supervised learning Multi-encoder nnU-Net architecture designed to process multiple MRI modalities independently through separate encoders. This approach allows the model to capture modality-specific features before fusing them for the final segmentation, thus improving accuracy. Our Multi-encoder nnU-Net demonstrates exceptional performance, achieving a Dice Similarity Coefficient (DSC) of 93.72%, which surpasses that of other models such as vanilla nnU-Net, SegResNet, and Swin UNETR. By leveraging the unique information provided by each modality, the model enhances segmentation tasks, particularly in scenarios with limited annotated data. Evaluations highlight the effectiveness of this architecture in improving tumor segmentation outcomes.

arxiv情報

著者 Seyedeh Sahar Taheri Otaghsara,Reza Rahmanzadeh
発行日 2025-04-04 14:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Multi-encoder nnU-Net outperforms Transformer models with self-supervised pretraining はコメントを受け付けていません

iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation

要約

学習済みのエンコーダとタスク固有のデコーダの完全な微調整(FFT)に基づく転移学習は、ディープモデルが指数関数的に成長するにつれて複雑さを増している。学習可能な小さな層で構成されるアダプタを用いたパラメータ効率的微調整(PEFT)アプローチは、FFTの代替として登場し、高い学習効率を維持しながら同等の性能を達成している。しかし、入力インスタンスに対するアダプタの柔軟性の低さが、多様な下流タスクにおけるタスク固有の情報を学習する能力を制限している。本論文では、入力インスタンスに条件付けされた動的なアダプタを活用する新しいPEFTアプローチ、入力条件付きトランスフォーマー(iConFormer)を提案する。様々な下流タスクにおいて入力インスタンスに対する柔軟な学習能力を確保するために、インスタンスレベルの特徴変換を可能にする動的アダプタに入力条件付きネットワーク(iCoN)を導入する。具体的には、iCoNは各特徴に対してチャネル単位の畳み込みカーネルを生成し、適応的な畳み込み処理を用いて変換することで、下流タスクに合わせたタスク固有のきめ細かな詳細を効果的に捉える。実験結果は、変換器のバックボーンパラメータをわずか1.6%から2.8%チューニングするだけで、iConFormerは単眼深度推定とセマンティックセグメンテーションにおいてFFTに匹敵する性能を達成し、画像分類とインスタンスセグメンテーションではFFTを上回ることを示す。また、提案手法は、上記のすべてのタスクにおいて、一貫して最近のPEFT手法を凌駕する。

要約(オリジナル)

Transfer learning based on full fine-tuning (FFT) of the pre-trained encoder and task-specific decoder becomes increasingly complex as deep models grow exponentially. Parameter efficient fine-tuning (PEFT) approaches using adapters consisting of small learnable layers have emerged as an alternative to FFT, achieving comparable performance while maintaining high training efficiency. However, the inflexibility of the adapter with respect to input instances limits its capability of learning task-specific information in diverse downstream tasks. In this paper, we propose a novel PEFT approach, input-Conditioned transFormer, termed iConFormer, that leverages a dynamic adapter conditioned on the input instances. To secure flexible learning ability on input instances in various downstream tasks, we introduce an input-Conditioned Network (iCoN) in the dynamic adapter that enables instance-level feature transformation. To be specific, iCoN generates channel-wise convolutional kernels for each feature and transform it using adaptive convolution process to effectively capture task-specific and fine-grained details tailor to downstream tasks. Experimental results demonstrate that by tuning just 1.6% to 2.8% of the Transformer backbone parameters, iConFormer achieves performance comparable to FFT in monocular depth estimation and semantic segmentation, while outperforming it in image classification and instance segmentation. Also, the proposed method consistently outperforms recent PEFT methods for all the tasks mentioned above.

arxiv情報

著者 Hayeon Jo,Hyesong Choi,Minhee Cho,Dongbo Min
発行日 2025-04-04 14:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation はコメントを受け付けていません