Point Cloud-based Grasping for Soft Hand Exoskeleton

要約

把持は、環境中の物体と相互作用し、操作するための基本的なスキルである。しかし、この能力は手に障害のある人にとっては困難なものである。把持を支援するように設計された柔らかい手の外骨格は、手の基本的な機能を強化または回復させることができるが、環境を理解することが複雑であるため、ユーザーを効果的に支援するためにこれらの柔らかい外骨格を制御することは依然として困難である。本研究では、奥行き知覚からの文脈認識を活用して把持対象を予測し、次の制御状態を決定する視覚ベースの予測制御フレームワークを提示する。大規模なラベル付きデータセットを必要とし、一般化可能性に苦慮するデータ駆動型アプローチとは異なり、我々の手法は幾何学的モデリングに立脚しており、多様な把持シナリオにおいて頑健な適応を可能にする。把持能力スコア(Grasping Ability Score: GAS)を用いて性能を評価したところ、本システムは15個の物体と健常被験者において91%という最先端のGASを達成し、様々な種類の物体において有効であることを実証した。提案手法は、未見の物体に対しても再構成の成功を維持し、学習ベースのモデルと比較して汎化性が高いことが明らかになった。

要約(オリジナル)

Grasping is a fundamental skill for interacting with and manipulating objects in the environment. However, this ability can be challenging for individuals with hand impairments. Soft hand exoskeletons designed to assist grasping can enhance or restore essential hand functions, yet controlling these soft exoskeletons to support users effectively remains difficult due to the complexity of understanding the environment. This study presents a vision-based predictive control framework that leverages contextual awareness from depth perception to predict the grasping target and determine the next control state for activation. Unlike data-driven approaches that require extensive labelled datasets and struggle with generalizability, our method is grounded in geometric modelling, enabling robust adaptation across diverse grasping scenarios. The Grasping Ability Score (GAS) was used to evaluate performance, with our system achieving a state-of-the-art GAS of 91% across 15 objects and healthy participants, demonstrating its effectiveness across different object types. The proposed approach maintained reconstruction success for unseen objects, underscoring its enhanced generalizability compared to learning-based models.

arxiv情報

著者 Chen Hu,Enrica Tricomi,Eojin Rho,Daekyum Kim,Lorenzo Masia,Shan Luo,Letizia Gionfrida
発行日 2025-04-04 11:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Point Cloud-based Grasping for Soft Hand Exoskeleton はコメントを受け付けていません

FLAIRBrainSeg: Fine-grained brain segmentation using FLAIR MRI only

要約

本稿では、FLAIR MRIのみを用いた脳セグメンテーションのための新しい手法を紹介する。既存の自動セグメンテーション手法を活用し、T1強調MRIから通常得られるセグメンテーションを近似するネットワークを学習する。FLAIRBrainSegと呼ばれる我々の手法は、132の構造のセグメンテーションを生成し、多発性硬化症病変に頑健である。領域内および領域外のデータセットを用いた実験により、本手法は、FLAIR MRIのみを用いて脳の分割を行うための現在利用可能な唯一の選択肢である、画像合成に基づくモダリティにとらわれないアプローチを凌駕することが実証された。この手法は、T1強調MRIが利用できない場合に有望であり、信頼性の高い解剖学的セグメンテーションを必要とする臨床医や研究者に貴重な選択肢を提供する。

要約(オリジナル)

This paper introduces a novel method for brain segmentation using only FLAIR MRIs, specifically targeting cases where access to other imaging modalities is limited. By leveraging existing automatic segmentation methods, we train a network to approximate segmentations, typically obtained from T1-weighted MRIs. Our method, called FLAIRBrainSeg, produces segmentations of 132 structures and is robust to multiple sclerosis lesions. Experiments on both in-domain and out-of-domain datasets demonstrate that our method outperforms modality-agnostic approaches based on image synthesis, the only currently available alternative for performing brain parcellation using FLAIR MRI alone. This technique holds promise for scenarios where T1-weighted MRIs are unavailable and offers a valuable alternative for clinicians and researchers in need of reliable anatomical segmentation.

arxiv情報

著者 Edern Le Bot,Rémi Giraud,Boris Mansencal,Thomas Tourdias,Josè V. Manjon,Pierrick Coupé
発行日 2025-04-04 11:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FLAIRBrainSeg: Fine-grained brain segmentation using FLAIR MRI only はコメントを受け付けていません

HMIL: Hierarchical Multi-Instance Learning for Fine-Grained Whole Slide Image Classification

要約

精密腫瘍学において、全スライド画像(WSI)のきめ細かな分類は不可欠であり、正確ながん診断と個別化された治療戦略を可能にする。このタスクの核心には、ギガピクセル解像度の同じ大分類画像内の微妙な形態的変化を区別することが含まれ、これは重要な課題である。多インスタンス学習(MIL)パラダイムはWSIの計算負担を軽減するが、既存のMIL手法は階層的なラベル相関を見落とすことが多く、細かい分類を平坦な多クラス分類タスクとして扱う。これらの限界を克服するために、我々は新しい階層的マルチインスタンス学習(HMIL)フレームワークを導入する。インスタンスレベルとバッグレベルのラベルの異なる階層間の固有の関係を階層的に整合させることで、我々のアプローチはより構造化された有益な学習プロセスを提供する。具体的には、HMILはインスタンスレベルとバッグレベルの両方で階層的な情報を整合させるクラス単位の注意メカニズムを組み込む。さらに、きめ細かな分類のための識別能力を強化するために教師付き対比学習と、学習中に階層的特徴のバランスを適応的にとるためのカリキュラムベースの動的重み付けモジュールを導入する。大規模な細胞診子宮頸がん(CCC)データセットと2つの公開組織診データセット、BRACSとPANDAを用いた広範な実験により、我々のHMILフレームワークのクラス別および全体的な性能が最先端のものであることを実証する。ソースコードはhttps://github.com/ChengJin-git/HMIL。

要約(オリジナル)

Fine-grained classification of whole slide images (WSIs) is essential in precision oncology, enabling precise cancer diagnosis and personalized treatment strategies. The core of this task involves distinguishing subtle morphological variations within the same broad category of gigapixel-resolution images, which presents a significant challenge. While the multi-instance learning (MIL) paradigm alleviates the computational burden of WSIs, existing MIL methods often overlook hierarchical label correlations, treating fine-grained classification as a flat multi-class classification task. To overcome these limitations, we introduce a novel hierarchical multi-instance learning (HMIL) framework. By facilitating on the hierarchical alignment of inherent relationships between different hierarchy of labels at instance and bag level, our approach provides a more structured and informative learning process. Specifically, HMIL incorporates a class-wise attention mechanism that aligns hierarchical information at both the instance and bag levels. Furthermore, we introduce supervised contrastive learning to enhance the discriminative capability for fine-grained classification and a curriculum-based dynamic weighting module to adaptively balance the hierarchical feature during training. Extensive experiments on our large-scale cytology cervical cancer (CCC) dataset and two public histology datasets, BRACS and PANDA, demonstrate the state-of-the-art class-wise and overall performance of our HMIL framework. Our source code is available at https://github.com/ChengJin-git/HMIL.

arxiv情報

著者 Cheng Jin,Luyang Luo,Huangjing Lin,Jun Hou,Hao Chen
発行日 2025-04-04 12:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | HMIL: Hierarchical Multi-Instance Learning for Fine-Grained Whole Slide Image Classification はコメントを受け付けていません

Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional Conditioning

要約

最近、安定拡散に基づく超解像(SD-SR)の視覚的品質において大きな進歩があった。しかし、携帯電話のような計算量に制限のあるデバイスに大規模な拡散モデルを展開することは、モデルサイズが大きくレイテンシーが高いため、依然として現実的ではありません。SRは高解像度(例えば4Kx3K)で動作することが多いため、これはさらに深刻である。本研究では、Edge-SD-SRを紹介する。Edge-SD-SRは、画像超解像のための最初のパラメータ効率的で低遅延な拡散モデルである。Edge-SD-SRは、UNet、エンコーダ、デコーダを含む〜169Mのパラメータで構成され、その複雑さはわずか〜142GFLOPsである。(i)双方向コンディショニングと呼ばれる、低解像度入力に対する新しいコンディショニングメカニズム。(ii)HR画像とLR画像のエンコーディングを分離し、専用のスケジュールを使用しながら、UNetとエンコーダーの共同トレーニング。(iii) UNetの出力を用いてデコーダを微調整し、推論時に得られたレイテントにデコーダを直接合わせる。Edge-SD-SRはデバイス上で効率的に動作し、例えばSamsung S24 DSP上では128×128のパッチを512×512にアップスケールするのに38ミリ秒、512×512を2048×2048にアップスケールする(25回のモデル評価を必要とする)のにわずか1.1秒である。さらに、Edge-SD-SRは、最も確立されたSRベンチマークにおいて、最先端のSRアプローチに匹敵するか、それを上回ることを示します。

要約(オリジナル)

There has been immense progress recently in the visual quality of Stable Diffusion-based Super Resolution (SD-SR). However, deploying large diffusion models on computationally restricted devices such as mobile phones remains impractical due to the large model size and high latency. This is compounded for SR as it often operates at high res (e.g. 4Kx3K). In this work, we introduce Edge-SD-SR, the first parameter efficient and low latency diffusion model for image super-resolution. Edge-SD-SR consists of ~169M parameters, including UNet, encoder and decoder, and has a complexity of only ~142 GFLOPs. To maintain a high visual quality on such low compute budget, we introduce a number of training strategies: (i) A novel conditioning mechanism on the low resolution input, coined bidirectional conditioning, which tailors the SD model for the SR task. (ii) Joint training of the UNet and encoder, while decoupling the encodings of the HR and LR images and using a dedicated schedule. (iii) Finetuning the decoder using the UNet’s output to directly tailor the decoder to the latents obtained at inference time. Edge-SD-SR runs efficiently on device, e.g. it can upscale a 128×128 patch to 512×512 in 38 msec while running on a Samsung S24 DSP, and of a 512×512 to 2048×2048 (requiring 25 model evaluations) in just ~1.1 sec. Furthermore, we show that Edge-SD-SR matches or even outperforms state-of-the-art SR approaches on the most established SR benchmarks.

arxiv情報

著者 Mehdi Noroozi,Isma Hadji,Victor Escorcia,Anestis Zaganidis,Brais Martinez,Georgios Tzimiropoulos
発行日 2025-04-04 12:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional Conditioning はコメントを受け付けていません

NeRFlex: Resource-aware Real-time High-quality Rendering of Complex Scenes on Mobile Devices

要約

Neural Radiance Fields(NeRF)は、3D再構成における新しいビュー合成のための、ニューラルネットワークに基づく最先端の技術である。しかし、その大きな計算負荷は、モバイル機器への展開に課題をもたらします。メッシュベースのNeRFソリューションは、モバイルプラットフォーム上でリアルタイムレンダリングを実現する可能性を示していますが、実用的な複雑なシーンをレンダリングする場合、高品質の再構成を提供できないことがよくあります。さらに、事前に計算された中間結果による無視できないメモリ・オーバーヘッドが、実用的なアプリケーションを複雑にしている。これらの課題を克服するために、我々は、モバイルデバイス上の複雑なシーンのための、リソースを考慮した高解像度のリアルタイムレンダリングフレームワークであるNeRFlexを発表する。NeRFlexは、モバイルNeRFレンダリングをマルチNeRF表現と統合し、シーンを複数のサブシーンに分解し、それぞれを個別のNeRFネットワークで表現します。NeRFlexは、メモリ制約と計算制約の両方を第一級市民として考慮し、それに応じて再構成プロセスを再設計します。NeRFlexはまず、高周波数の詳細を持つサブシーンを特定するために、詳細指向のセグメンテーションモジュールを設計する。各NeRFネットワークに対して、ドメイン知識に基づいて構築された軽量プロファイラを使用して、構成を視覚的品質とメモリ使用量に正確にマッピングする。これらの洞察とモバイルデバイスのリソース制約に基づき、NeRFlexは、元の決定問題のNP困難性にもかかわらず、すべてのNeRF表現の構成を効率的に決定する動的計画アルゴリズムを提示する。実世界のデータセットとモバイルデバイスを用いた広範な実験により、NeRFlexが商用モバイルデバイス上でリアルタイムかつ高品質なレンダリングを実現することが実証された。

要約(オリジナル)

Neural Radiance Fields (NeRF) is a cutting-edge neural network-based technique for novel view synthesis in 3D reconstruction. However, its significant computational demands pose challenges for deployment on mobile devices. While mesh-based NeRF solutions have shown potential in achieving real-time rendering on mobile platforms, they often fail to deliver high-quality reconstructions when rendering practical complex scenes. Additionally, the non-negligible memory overhead caused by pre-computed intermediate results complicates their practical application. To overcome these challenges, we present NeRFlex, a resource-aware, high-resolution, real-time rendering framework for complex scenes on mobile devices. NeRFlex integrates mobile NeRF rendering with multi-NeRF representations that decompose a scene into multiple sub-scenes, each represented by an individual NeRF network. Crucially, NeRFlex considers both memory and computation constraints as first-class citizens and redesigns the reconstruction process accordingly. NeRFlex first designs a detail-oriented segmentation module to identify sub-scenes with high-frequency details. For each NeRF network, a lightweight profiler, built on domain knowledge, is used to accurately map configurations to visual quality and memory usage. Based on these insights and the resource constraints on mobile devices, NeRFlex presents a dynamic programming algorithm to efficiently determine configurations for all NeRF representations, despite the NP-hardness of the original decision problem. Extensive experiments on real-world datasets and mobile devices demonstrate that NeRFlex achieves real-time, high-quality rendering on commercial mobile devices.

arxiv情報

著者 Zhe Wang,Yifei Zhu
発行日 2025-04-04 12:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, cs.PF | NeRFlex: Resource-aware Real-time High-quality Rendering of Complex Scenes on Mobile Devices はコメントを受け付けていません

Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography

要約

コンピュータビジョンは、マルチモーダルエンコーディングやチャットベースの大規模言語モデルによる画像との直接的なテキストインタラクションで大きな成功を収めているが、医療画像AI、特に3D画像における同様の進歩は、包括的なデータセットの不足により制限されている。この重大なギャップを解決するために、我々は、3D医療画像と対応するテキストレポートをペアにした最初のデータセットであるCT-RATEを紹介する。CT-RATEは、21,304人の患者の25,692枚の非造影3D胸部CTスキャンから構成されている。様々な再構成を経て、これらのスキャンは50,188ボリューム、合計1,430万以上の2Dスライスに拡張される。各スキャンには、対応するレントゲンレポートが添付されています。CT-RATEを活用し、CT-CLIPを開発する。CT-CLIPは、タスクに特化したトレーニングを必要とせず、幅広い応用を想定して設計された、CTに特化した対照言語-画像事前トレーニングフレームワークである。CT-CLIPがどのように2つのタスクで使用されるかを示す:多異常性検出と症例検索。驚くべきことに、マルチアブノーマリティ検出において、CT-CLIPは全ての主要な指標において最新の完全教師ありモデルを凌駕し、手動アノテーションの必要性を効果的に排除する。症例検索では、画像またはテキストクエリを用いて関連する症例を効率的に検索し、知識の普及を促進する。CT-CLIPのビジョンエンコーダと事前に学習された大規模な言語モデルを組み合わせることで、3D胸部CTボリューム用のビジョン言語基盤チャットモデルであるCT-CHATを作成します。CT-RATEデータセットに由来する270万以上の質問と回答のペアで微調整されたCT-CHATは、他のマルチモーダルAIアシスタントを凌駕し、3D医療画像処理に特化した手法の必要性を強調している。CT-RATE、CT-CLIP、CT-CHATのオープンソースリリースは、3D医用画像処理における重要な課題に対処するだけでなく、医用AIの将来的な革新と患者ケアの向上に向けた基盤を築くものです。

要約(オリジナル)

While computer vision has achieved tremendous success with multimodal encoding and direct textual interaction with images via chat-based large language models, similar advancements in medical imaging AI, particularly in 3D imaging, have been limited due to the scarcity of comprehensive datasets. To address this critical gap, we introduce CT-RATE, the first dataset that pairs 3D medical images with corresponding textual reports. CT-RATE comprises 25,692 non-contrast 3D chest CT scans from 21,304 unique patients. Through various reconstructions, these scans are expanded to 50,188 volumes, totaling over 14.3 million 2D slices. Each scan is accompanied by its corresponding radiology report. Leveraging CT-RATE, we develop CT-CLIP, a CT-focused contrastive language-image pretraining framework designed for broad applications without the need for task-specific training. We demonstrate how CT-CLIP can be used in two tasks: multi-abnormality detection and case retrieval. Remarkably, in multi-abnormality detection, CT-CLIP outperforms state-of-the-art fully supervised models across all key metrics, effectively eliminating the need for manual annotation. In case retrieval, it efficiently retrieves relevant cases using either image or textual queries, thereby enhancing knowledge dissemination. By combining CT-CLIP’s vision encoder with a pretrained large language model, we create CT-CHAT, a vision-language foundational chat model for 3D chest CT volumes. Finetuned on over 2.7 million question-answer pairs derived from the CT-RATE dataset, CT-CHAT surpasses other multimodal AI assistants, underscoring the necessity for specialized methods in 3D medical imaging. Collectively, the open-source release of CT-RATE, CT-CLIP, and CT-CHAT not only addresses critical challenges in 3D medical imaging, but also lays the groundwork for future innovations in medical AI and improved patient care.

arxiv情報

著者 Ibrahim Ethem Hamamci,Sezgin Er,Chenyu Wang,Furkan Almas,Ayse Gulnihan Simsek,Sevval Nil Esirgun,Irem Doga,Omer Faruk Durugol,Weicheng Dai,Murong Xu,Muhammed Furkan Dasdelen,Bastian Wittmann,Tamaz Amiranashvili,Enis Simsar,Mehmet Simsar,Emine Bensu Erdemir,Abdullah Alanbay,Anjany Sekuboyina,Berkan Lafci,Christian Bluethgen,Kayhan Batmanghelich,Mehmet Kemal Ozdemir,Bjoern Menze
発行日 2025-04-04 13:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography はコメントを受け付けていません

Autonomous state-space segmentation for Deep-RL sparse reward scenarios

要約

報酬がまばらな環境に対処することは、自律的なオープンエンド学習の設定で動作するように開発されたシステムにとって常に重要である。内発的動機づけは、深層強化学習アルゴリズムがそのようなシナリオで学習するのを助ける効果的な方法である可能性がある。実際、新奇性や好奇心などの内発的な報酬シグナルは、外発的な報酬が遅れたり、存在しない場合に探索を改善するために一般的に採用される。これまでの研究を基に、我々は、探索と自律的なサブゴール生成の”内発的に駆動される”フェーズと、疎な報酬、ゴール指向のポリシー学習のフェーズを交互に繰り返す2レベルのアーキテクチャを提案することで、疎な報酬の存在下でポリシーを学習する問題に取り組む。このアイデアは、それぞれが特定のサブパスに特化した複数の小さなネットワークを構築し、それらを将来の探索の出発点として使用することである。このシステムの2つのバージョンをジムスーパーマリオブラザーズ環境で訓練し、テストした。その結果、我々のアプローチの有効性と、最終的なゴールに向かう効率的な経路を生成するために自律的に環境をセグメント化することの重要性が示された。

要約(オリジナル)

Dealing with environments with sparse rewards has always been crucial for systems developed to operate in autonomous open-ended learning settings. Intrinsic Motivations could be an effective way to help Deep Reinforcement Learning algorithms learn in such scenarios. In fact, intrinsic reward signals, such as novelty or curiosity, are generally adopted to improve exploration when extrinsic rewards are delayed or absent. Building on previous works, we tackle the problem of learning policies in the presence of sparse rewards by proposing a two-level architecture that alternates an ”intrinsically driven” phase of exploration and autonomous sub-goal generation, to a phase of sparse reward, goal-directed policy learning. The idea is to build several small networks, each one specialized on a particular sub-path, and use them as starting points for future exploration without the need to further explore from scratch previously learnt paths. Two versions of the system have been trained and tested in the Gym SuperMarioBros environment without considering any additional extrinsic reward. The results show the validity of our approach and the importance of autonomously segment the environment to generate an efficient path towards the final goal.

arxiv情報

著者 Gianluca Maselli,Vieri Giuliano Santucci
発行日 2025-04-04 13:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Autonomous state-space segmentation for Deep-RL sparse reward scenarios はコメントを受け付けていません

Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models

要約

基礎モデルの時代において、我々は継続的学習(Continual Learning: CL)を再考する。これは、ビジョントランスフォーマー(Vision Transformer: ViTs)が時間とともに新しいタスクを学習できるようにすることを目的としている。しかし、このようなモデルの規模が大きくなるにつれて、特にタスク間でドメインが大きくシフトしている場合には、壊滅的な忘却が依然として根強い課題となっている。最近の研究では、CL技術と、低ランク適応(LoRA)のような、下流のタスクに適応するために訓練可能なパラメータの小さなセットのみを微調整することに焦点を当てたパラメータ効率的微調整(PEFT)とのクロスオーバーが強調されている。LoRAは収束が早く、学習可能なパラメータが少なくて済むが、継続的学習の文脈ではほとんど研究されていない。このギャップを解決するために、我々はデュアル低ランク適応(DualLoRA)と呼ばれる新しいPEFT-CL手法を提案する。これらのコンポーネントは、安定性と可塑性のバランスをとるために、動的メモリメカニズムによって編成される。直交LoRAアダプタのパラメータは、過去のタスクの直交部分空間で更新され、壊滅的な忘却を軽減する。一方、残差LoRAアダプタのパラメータは、タスク間の相互作用なしに、タスク固有ベースによってスパンされる残差部分空間で更新され、新しいタスクを微調整するための補完的な能力を提供する。ViTベースのモデルにおいて、DualLoRAが既存のCL手法と比較して、精度、推論速度、メモリ効率において大きな優位性を持つことを、複数のベンチマークで実証する。

要約(オリジナル)

In the era of foundation models, we revisit continual learning~(CL), which aims to enable vision transformers (ViTs) to learn new tasks over time. However, as the scale of these models increases, catastrophic forgetting remains a persistent challenge, particularly in the presence of significant domain shifts across tasks. Recent studies highlight a crossover between CL techniques and parameter-efficient fine-tuning (PEFT), which focuses on fine-tuning only a small set of trainable parameters to adapt to downstream tasks, such as low-rank adaptation (LoRA). While LoRA achieves faster convergence and requires fewer trainable parameters, it has seldom been explored in the context of continual learning. To address this gap, we propose a novel PEFT-CL method called Dual Low-Rank Adaptation (DualLoRA), which introduces both an orthogonal LoRA adapter and a residual LoRA adapter parallel to pre-trained weights in each layer. These components are orchestrated by a dynamic memory mechanism to strike a balance between stability and plasticity. The orthogonal LoRA adapter’s parameters are updated in an orthogonal subspace of previous tasks to mitigate catastrophic forgetting, while the residual LoRA adapter’s parameters are updated in the residual subspace spanned by task-specific bases without interaction across tasks, offering complementary capabilities for fine-tuning new tasks. On ViT-based models, we demonstrate that DualLoRA offers significant advantages in accuracy, inference speed, and memory efficiency over existing CL methods across multiple benchmarks.

arxiv情報

著者 Huancheng Chen,Jingtao Li,Nidham Gazagnadou,Weiming Zhuang,Chen Chen,Lingjuan Lyu
発行日 2025-04-04 13:16:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models はコメントを受け付けていません

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

要約

我々は、陰的神経表現(INR)を高速化するための効率的な学習パラダイムであるEVOlutionary Selector (EVOS)を提案する。各反復において全てのサンプルをニューラルネットワークに通す従来のINR学習とは異なり、我々のアプローチは戦略的に選択されたポイントに学習を限定し、冗長なフォワードパスを排除することで計算オーバヘッドを削減する。具体的には、各サンプルを進化過程における個体として扱い、最も適合したものだけが生き残り、トレーニングに含める価値があり、ニューラルネットワークのダイナミクスに合わせて適応的に進化します。これは進化的アルゴリズムと概念的には似ていますが、その目的が異なるため(加速のための選択と反復的な解の最適化)、私たちの文脈に合わせて進化メカニズムを根本的に再定義する必要があります。そこで我々は、EVOSを構成するスパースフィットネス評価、周波数誘導クロスオーバー、拡張不偏突然変異を設計した。これらの構成要素はそれぞれ、計算コストを削減しながらサンプル選択をガイドし、周波数領域のバランスにより性能を向上させ、キャッシュされた評価による選択バイアスを緩和する。広範な実験により、本方法は、追加コストなしに優れた収束性を確保しながら、学習時間を約48%~66%削減することを実証し、最近のサンプリングに基づく戦略の中で最先端の高速化を確立した。

要約(オリジナル)

We propose EVOlutionary Selector (EVOS), an efficient training paradigm for accelerating Implicit Neural Representation (INR). Unlike conventional INR training that feeds all samples through the neural network in each iteration, our approach restricts training to strategically selected points, reducing computational overhead by eliminating redundant forward passes. Specifically, we treat each sample as an individual in an evolutionary process, where only those fittest ones survive and merit inclusion in training, adaptively evolving with the neural network dynamics. While this is conceptually similar to Evolutionary Algorithms, their distinct objectives (selection for acceleration vs. iterative solution optimization) require a fundamental redefinition of evolutionary mechanisms for our context. In response, we design sparse fitness evaluation, frequency-guided crossover, and augmented unbiased mutation to comprise EVOS. These components respectively guide sample selection with reduced computational cost, enhance performance through frequency-domain balance, and mitigate selection bias from cached evaluation. Extensive experiments demonstrate that our method achieves approximately 48%-66% reduction in training time while ensuring superior convergence without additional cost, establishing state-of-the-art acceleration among recent sampling-based strategies.

arxiv情報

著者 Weixiang Zhang,Shuzhao Xie,Chengwei Ren,Siyi Xie,Chen Tang,Shijia Ge,Mingzi Wang,Zhi Wang
発行日 2025-04-04 13:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.NE | EVOS: Efficient Implicit Neural Training via EVOlutionary Selector はコメントを受け付けていません

ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving

要約

自律走行において、信頼性の高い3次元物体認識は不可欠である。あらゆる気象条件下でのセンシング能力を持つ4Dレーダーは、最近注目を集めている。しかし、LiDARに比べ、4Dレーダーは点群データが少ない。本論文では、4Dレーダーと視覚モダリティを融合したZFusionと呼ばれる3D物体検出法を提案する。ZFusionの中核として、我々の提案するFP-DDCA(Feature Pyramid-Double Deformable Cross Attention)フューザーは、(疎な)レーダー情報と(密な)視覚情報を効果的に補完する。具体的には、特徴ピラミッド構造を持つFP-DDCAフューザーは、異なるスケールのマルチモーダル特徴をインタラクティブに融合するためのTransformerブロックを搭載し、知覚精度を向上させます。さらに、4Dレーダーの物理的特性により、Depth-Context-Splitビュー変換モジュールを利用する。4DレーダーがLiDARよりもはるかに低コストであることを考慮すると、ZFusionはLiDARベースの手法に代わる魅力的な選択肢となります。VoD(View-of-Delft)データセットのような典型的な交通シナリオにおいて、ZFusionは妥当な推論速度で、ベースライン手法と比較して、全領域において競争力のあるmAPを持ちながら、関心領域において最先端のmAP(平均平均精度)を達成し、LiDARに近い性能を示し、カメラのみの手法を大きく上回ることが実験で示されました。

要約(オリジナル)

Reliable 3D object perception is essential in autonomous driving. Owing to its sensing capabilities in all weather conditions, 4D radar has recently received much attention. However, compared to LiDAR, 4D radar provides much sparser point cloud. In this paper, we propose a 3D object detection method, termed ZFusion, which fuses 4D radar and vision modality. As the core of ZFusion, our proposed FP-DDCA (Feature Pyramid-Double Deformable Cross Attention) fuser complements the (sparse) radar information and (dense) vision information, effectively. Specifically, with a feature-pyramid structure, the FP-DDCA fuser packs Transformer blocks to interactively fuse multi-modal features at different scales, thus enhancing perception accuracy. In addition, we utilize the Depth-Context-Split view transformation module due to the physical properties of 4D radar. Considering that 4D radar has a much lower cost than LiDAR, ZFusion is an attractive alternative to LiDAR-based methods. In typical traffic scenarios like the VoD (View-of-Delft) dataset, experiments show that with reasonable inference speed, ZFusion achieved the state-of-the-art mAP (mean average precision) in the region of interest, while having competitive mAP in the entire area compared to the baseline methods, which demonstrates performance close to LiDAR and greatly outperforms those camera-only methods.

arxiv情報

著者 Sheng Yang,Tong Zhan,Shichen Qiao,Jicheng Gong,Qing Yang,Yanfeng Lu,Jian Wang
発行日 2025-04-04 13:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving はコメントを受け付けていません