Visual Intention Grounding for Egocentric Assistants

要約

Visual Groundingは、テキストの説明を画像内のオブジェクトと関連付けます。
従来の方法は、サードパーソン画像入力と名前付きオブジェクトクエリをターゲットにします。
AIアシスタントなどのアプリケーションでは、視点シフト – 入力はエゴセントリックであり、オブジェクトはニーズと意図を通じて暗黙的に参照される場合があります。
このギャップを埋めるために、エゴセントリックな視覚意図の接地のための最初のデータセットである等張性を導入します。
Gointentionは、1)意図しないコンテキストオブジェクトを理解して無視するマルチモーダルLLMSに課題を課し、2)珍しいオブジェクト機能についての理由。
ベンチマークの結果は、現在のモデルがコンテキストオブジェクトを誤認し、エゴセントリックビューでアフォーダンスの理解を欠いていることを示しています。
また、理由から地面(ROG)の指示の調整を提案します。
これにより、通常の説明とエゴセントリックな意図を備えたハイブリッドトレーニングが、鎖でつながれた意図の推論とオブジェクト接地メカニズムを備えています。
ROGは、素朴な説明の接地を維持またはわずかに改善しながら、等しく微調整されたトレーニングとハイブリッドトレーニングを大幅に上回ります。
この進歩により、明示的なオブジェクトクエリと暗黙の人間の意図を処理しながら、エゴセントリックおよびエキソセントリックの視覚入力の統一された視覚的接地が可能になります。

要約(オリジナル)

Visual grounding associates textual descriptions with objects in an image. Conventional methods target third-person image inputs and named object queries. In applications such as AI assistants, the perspective shifts — inputs are egocentric, and objects may be referred to implicitly through needs and intentions. To bridge this gap, we introduce EgoIntention, the first dataset for egocentric visual intention grounding. EgoIntention challenges multimodal LLMs to 1) understand and ignore unintended contextual objects and 2) reason about uncommon object functionalities. Benchmark results show that current models misidentify context objects and lack affordance understanding in egocentric views. We also propose Reason-to-Ground (RoG) instruction tuning; it enables hybrid training with normal descriptions and egocentric intentions with a chained intention reasoning and object grounding mechanism. RoG significantly outperforms naive finetuning and hybrid training on EgoIntention, while maintaining or slightly improving naive description grounding. This advancement enables unified visual grounding for egocentric and exocentric visual inputs while handling explicit object queries and implicit human intentions.

arxiv情報

著者 Pengzhan Sun,Junbin Xiao,Tze Ho Elden Tse,Yicong Li,Arjun Akula,Angela Yao
発行日 2025-04-18 10:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Intention Grounding for Egocentric Assistants はコメントを受け付けていません

SupResDiffGAN a new approach for the Super-Resolution task

要約

この作業では、超解像度タスクの生成的敵対ネットワーク(GANS)と拡散モデルの強みを組み合わせた新しいハイブリッドアーキテクチャであるSupresdiffganを紹介します。
潜在的な空間表現を活用し、拡散ステップの数を減らすことにより、競争力のある知覚品質を維持しながら、他の拡散ベースの超解像度モデルよりも拡散性の推論時間が大幅に速くなります。
差別装置の過剰適合を防ぐために、適応型ノイズの腐敗を提案し、トレーニング中に発電機と判別器の間の安定したバランスを確保します。
ベンチマークデータセットでの広範な実験は、私たちのアプローチが、効率と画質のI $^2 $ SBなどの従来の拡散モデルよりも優れていることを示しています。
この作業は、拡散とGANベースの方法のパフォーマンスギャップを埋め、高解像度の画像生成における拡散モデルのリアルタイムアプリケーションの基礎を築きます。

要約(オリジナル)

In this work, we present SupResDiffGAN, a novel hybrid architecture that combines the strengths of Generative Adversarial Networks (GANs) and diffusion models for super-resolution tasks. By leveraging latent space representations and reducing the number of diffusion steps, SupResDiffGAN achieves significantly faster inference times than other diffusion-based super-resolution models while maintaining competitive perceptual quality. To prevent discriminator overfitting, we propose adaptive noise corruption, ensuring a stable balance between the generator and the discriminator during training. Extensive experiments on benchmark datasets show that our approach outperforms traditional diffusion models such as SR3 and I$^2$SB in efficiency and image quality. This work bridges the performance gap between diffusion- and GAN-based methods, laying the foundation for real-time applications of diffusion models in high-resolution image generation.

arxiv情報

著者 Dawid Kopeć,Wojciech Kozłowski,Maciej Wizerkaniuk,Dawid Krutul,Jan Kocoń,Maciej Zięba
発行日 2025-04-18 10:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | SupResDiffGAN a new approach for the Super-Resolution task はコメントを受け付けていません

DenSe-AdViT: A novel Vision Transformer for Dense SAR Object Detection

要約

視覚変圧器(VIT)は、グローバルな特徴を抽出する特別な能力により、合成開口レーダー(SAR)画像のオブジェクト検出で顕著な結果を達成しました。
ただし、マルチスケールのローカル機能の抽出に苦労しているため、特に密集している場合は、小さなターゲットの検出において性能が限られています。
したがって、密度の高いSARターゲット検出のための適応トークン(密度の高いアドビット)を備えた密度感受性視力変圧器を提案します。
標的分布に基づいて密度テンソルを生成する予備コンポーネントとして密度認識モジュール(DAM)を設計します。
それは、細心の注意を払って作成された客観的なメトリックによって導かれ、オブジェクトの空間分布と密度を正確かつ効果的にキャプチャできるようにします。
畳み込みニューラルネットワーク(CNNS)によって強化されたマルチスケール情報を変圧器から派生したグローバルな特徴を統合するために、密度強化融合モジュール(DEFM)が提案されています。
密度マスクのアシストと複数のソース機能を使用して、ターゲットサラバイバル領域への注意を効果的に洗練します。
特に、当社の密集したアドビットは、RSDDデータセットで79.8%のマップ、サイドデータセットで92.5%を達成します。

要約(オリジナル)

Vision Transformer (ViT) has achieved remarkable results in object detection for synthetic aperture radar (SAR) images, owing to its exceptional ability to extract global features. However, it struggles with the extraction of multi-scale local features, leading to limited performance in detecting small targets, especially when they are densely arranged. Therefore, we propose Density-Sensitive Vision Transformer with Adaptive Tokens (DenSe-AdViT) for dense SAR target detection. We design a Density-Aware Module (DAM) as a preliminary component that generates a density tensor based on target distribution. It is guided by a meticulously crafted objective metric, enabling precise and effective capture of the spatial distribution and density of objects. To integrate the multi-scale information enhanced by convolutional neural networks (CNNs) with the global features derived from the Transformer, Density-Enhanced Fusion Module (DEFM) is proposed. It effectively refines attention toward target-survival regions with the assist of density mask and the multiple sources features. Notably, our DenSe-AdViT achieves 79.8% mAP on the RSDD dataset and 92.5% on the SIVED dataset, both of which feature a large number of densely distributed vehicle targets.

arxiv情報

著者 Yang Zhang,Jingyi Cao,Yanan You,Yuanyuan Qiao
発行日 2025-04-18 11:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DenSe-AdViT: A novel Vision Transformer for Dense SAR Object Detection はコメントを受け付けていません

AnomalyControl: Learning Cross-modal Semantic Features for Controllable Anomaly Synthesis

要約

異常合成は、異常検査を進めるための異常なデータを増強するための重要なアプローチです。
大規模なトレーニング前の知識に基づいて、既存のテキストからイメージまでの異常な合成方法は、主にテキスト情報または粗整列された視覚的特徴に焦点を当てて、世代全体を導きます。
ただし、これらの方法は、生成プロセスのリアリズムと一般化を制限する、現実的な異常の複雑な特性(例えば、細粒の視覚パターンの異常の視覚パターンなど)をキャプチャするのに十分な記述子を欠いていることがよくあります。
この目的のために、アノマリコントロールと呼ばれる新しい異常合成フレームワークを提案し、ガイダンスシグナルとしてクロスモーダルセマンティックの特徴を学習します。これは、テキストイメージの参照プロンプトから一般化された異常なキューをコードし、合成された異常なサンプルのリアリズムを改善することができます。
具体的には、Anomalycontrolは、クロスモーダルセマンティックモデリング(CSM)モジュールがテキストおよび視覚記述子からクロスモーダルセマンティック機能を抽出するように設計されている柔軟で一致しないプロンプトペア(つまり、テキストイメージリファレンスプロンプトとターゲットテキストプロンプト)を採用します。
次に、CSMが異常の特定の視覚パターンに焦点を合わせることができるように、異常に心次の強化された注意(ASEA)メカニズムが定式化され、生成された異常の特徴のリアリズムと文脈的関連性が向上します。
クロスモーダルのセマンティック機能を以前のように処理するセマンティックガイド付きアダプター(SGA)は、適切で制御可能な合成プロセスの効果的なガイダンス信号をエンコードするように設計されています。
広範な実験は、アノマリコントロールが、下流タスクの優れた性能を示しながら、既存の方法と比較して、異常な合成で最先端の結果を達成できることを示しています。

要約(オリジナル)

Anomaly synthesis is a crucial approach to augment abnormal data for advancing anomaly inspection. Based on the knowledge from the large-scale pre-training, existing text-to-image anomaly synthesis methods predominantly focus on textual information or coarse-aligned visual features to guide the entire generation process. However, these methods often lack sufficient descriptors to capture the complicated characteristics of realistic anomalies (e.g., the fine-grained visual pattern of anomalies), limiting the realism and generalization of the generation process. To this end, we propose a novel anomaly synthesis framework called AnomalyControl to learn cross-modal semantic features as guidance signals, which could encode the generalized anomaly cues from text-image reference prompts and improve the realism of synthesized abnormal samples. Specifically, AnomalyControl adopts a flexible and non-matching prompt pair (i.e., a text-image reference prompt and a targeted text prompt), where a Cross-modal Semantic Modeling (CSM) module is designed to extract cross-modal semantic features from the textual and visual descriptors. Then, an Anomaly-Semantic Enhanced Attention (ASEA) mechanism is formulated to allow CSM to focus on the specific visual patterns of the anomaly, thus enhancing the realism and contextual relevance of the generated anomaly features. Treating cross-modal semantic features as the prior, a Semantic Guided Adapter (SGA) is designed to encode effective guidance signals for the adequate and controllable synthesis process. Extensive experiments indicate that AnomalyControl can achieve state-of-the-art results in anomaly synthesis compared with existing methods while exhibiting superior performance for downstream tasks.

arxiv情報

著者 Shidan He,Lei Liu,Xiujun Shu,Bo Wang,Yuanhao Feng,Shen Zhao
発行日 2025-04-18 11:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AnomalyControl: Learning Cross-modal Semantic Features for Controllable Anomaly Synthesis はコメントを受け付けていません

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination

要約

対照的なデコード戦略は、マルチモーダルの大手言語モデル(MLLM)の幻覚を減らすために広く使用されています。
これらの方法は、幻覚を誘発するために対照的なサンプルを構築し、出力分布でそれらを抑制することにより機能します。
しかし、この論文は、そのようなアプローチが幻覚の問題を効果的に軽減できないことを示しています。
教皇ベンチマークで観察されるパフォーマンスの改善は、主に2つの誤解を招く要因によって駆動されます。(1)モデルの出力分布に対する粗い一方的な調整と(2)サンプリング戦略を貪欲な検索に削減する適応的妥当性の制約。
これらの問題をさらに説明するために、一連の偽の改善方法を紹介し、コントラストのデコード技術に対するパフォーマンスを評価します。
実験結果は、対照的なデコードで観察されたパフォーマンスの向上は、幻覚を緩和するという意図した目標とはまったく関係がないことを明らかにしています。
私たちの調査結果は、対照的な解読戦略の有効性に関する一般的な仮定に挑戦し、MLLMSの幻覚に対する真に効果的なソリューションを開発する方法を繰り返します。

要約(オリジナル)

Contrastive decoding strategies are widely used to reduce hallucinations in multimodal large language models (MLLMs). These methods work by constructing contrastive samples to induce hallucinations and then suppressing them in the output distribution. However, this paper demonstrates that such approaches fail to effectively mitigate the hallucination problem. The performance improvements observed on POPE Benchmark are largely driven by two misleading factors: (1) crude, unidirectional adjustments to the model’s output distribution and (2) the adaptive plausibility constraint, which reduces the sampling strategy to greedy search. To further illustrate these issues, we introduce a series of spurious improvement methods and evaluate their performance against contrastive decoding techniques. Experimental results reveal that the observed performance gains in contrastive decoding are entirely unrelated to its intended goal of mitigating hallucinations. Our findings challenge common assumptions about the effectiveness of contrastive decoding strategies and pave the way for developing genuinely effective solutions to hallucinations in MLLMs.

arxiv情報

著者 Hao Yin,Guangzong Si,Zilei Wang
発行日 2025-04-18 11:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination はコメントを受け付けていません

IReNe: Instant Recoloring of Neural Radiance Fields

要約

NERFの進歩により、3Dシーンの再構築と新しいビューの合成が可能になりました。
しかし、フォトリアリズムを保持しながらこれらの表現を効率的に編集することは、新たな課題です。
最近の方法は、3つの主要な制限に直面しています。それらは、インタラクティブな使用が遅く、オブジェクトの境界に精度が欠けており、マルチビューの一貫性を確保するのに苦労しています。
これらの制限に対処するためにアイリーンを紹介し、NERFでの迅速でリアルタイムの色の編集を可能にします。
事前に訓練されたNERFモデルとユーザーが適用されたカラー編集を使用した単一のトレーニング画像を活用して、Ireneは秒単位でネットワークパラメーターを迅速に調整します。
この調整により、モデルは新しいシーンビューを生成でき、トレーニング画像からの色の変化を正確に表し、オブジェクトの境界とビュー固有の効果も制御します。
オブジェクトの境界制御は、トレーニング可能なセグメンテーションモジュールをモデルに統合することにより実現されます。
このプロセスは、最後のネットワークレイヤーの重みのみを再調整することにより、効率を向上させます。
この層のニューロンは、ビュー依存の外観の原因となるニューロンとびまん性の外観に寄与するものに分類できることが観察されました。
自動分類アプローチを導入して、これらのニューロンタイプを識別し、拡散ニューロンの重みを独占的に微調整します。
これにより、トレーニングがさらに加速し、さまざまなビューで一貫したカラー編集が保証されます。
編集されたオブジェクトの色を備えた新しいデータセットの徹底的な検証は、競合他社よりも重要な定量的および定性的進歩を示し、速度を5倍から500倍まで加速します。

要約(オリジナル)

Advances in NERFs have allowed for 3D scene reconstructions and novel view synthesis. Yet, efficiently editing these representations while retaining photorealism is an emerging challenge. Recent methods face three primary limitations: they’re slow for interactive use, lack precision at object boundaries, and struggle to ensure multi-view consistency. We introduce IReNe to address these limitations, enabling swift, near real-time color editing in NeRF. Leveraging a pre-trained NeRF model and a single training image with user-applied color edits, IReNe swiftly adjusts network parameters in seconds. This adjustment allows the model to generate new scene views, accurately representing the color changes from the training image while also controlling object boundaries and view-specific effects. Object boundary control is achieved by integrating a trainable segmentation module into the model. The process gains efficiency by retraining only the weights of the last network layer. We observed that neurons in this layer can be classified into those responsible for view-dependent appearance and those contributing to diffuse appearance. We introduce an automated classification approach to identify these neuron types and exclusively fine-tune the weights of the diffuse neurons. This further accelerates training and ensures consistent color edits across different views. A thorough validation on a new dataset, with edited object colors, shows significant quantitative and qualitative advancements over competitors, accelerating speeds by 5x to 500x.

arxiv情報

著者 Alessio Mazzucchelli,Adrian Garcia-Garcia,Elena Garces,Fernando Rivas-Manzaneque,Francesc Moreno-Noguer,Adrian Penate-Sanchez
発行日 2025-04-18 11:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IReNe: Instant Recoloring of Neural Radiance Fields はコメントを受け付けていません

LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations

要約

対照的なインスタンス識別方法は、画像分類やオブ​​ジェクト検出などの下流タスクで監視された学習を上回ります。
ただし、これらの方法は、表現学習中のデータ増強に大きく依存しており、慎重に実装されないと最適でない結果につながる可能性があります。
対照的な学習における一般的な増強技術は、ランダムなトリミングとそれに続くサイズ変更です。
これにより、2つのランダム作物に異なるセマンティックコンテンツが含まれている場合、表現学習の質を低下させることができます。
この問題に取り組むために、新しいインスタンス識別アプローチと適応された損失関数を採用するフレームワークであるLeoCLR(視覚表現の対照的な学習のために元の画像を活用)を紹介します。
この方法は、表現学習中に異なるオブジェクトパーツをマッピングすることによって引き起こされる重要なセマンティック機能の喪失を防ぎます。
私たちの実験は、LeoCLRがさまざまなデータセット全体で表現学習を一貫して改善し、ベースラインモデルを上回ることを示しています。
たとえば、Leoclrは、線形評価でImagenet-1KでMoco-V2を5.1%上回り、転送学習およびオブジェクト検出タスクで他のいくつかの方法を上回ります。

要約(オリジナル)

Contrastive instance discrimination methods outperform supervised learning in downstream tasks such as image classification and object detection. However, these methods rely heavily on data augmentation during representation learning, which can lead to suboptimal results if not implemented carefully. A common augmentation technique in contrastive learning is random cropping followed by resizing. This can degrade the quality of representation learning when the two random crops contain distinct semantic content. To tackle this issue, we introduce LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a novel instance discrimination approach and an adapted loss function. This method prevents the loss of important semantic features caused by mapping different object parts during representation learning. Our experiments demonstrate that LeOCLR consistently improves representation learning across various datasets, outperforming baseline models. For instance, LeOCLR surpasses MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and outperforms several other methods on transfer learning and object detection tasks.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2025-04-18 11:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations はコメントを受け付けていません

DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation

要約

テキストからイメージ(T2I)生成モデルは、近年大幅に進歩しています。
ただし、これらのモデルとの効果的な相互作用は、専門化された迅速なエンジニアリング知識の必要性と多ターン画像生成を実行できないため、平均的なユーザーにとって困難です。
最近の試みでは、ユーザーの自然言語の指示を実現するために、マルチモーダルの大手言語モデル(MLLMS)をT2Iモデルに装備しようとしました。
したがって、MLLMSの出力モダリティが拡張され、MLLMSの強力なマルチモーダル理解能力のおかげで、T2Iモデルのマルチターン生成品質が強化されます。
ただし、これらの作品の多くは、出力モダリティの数が増加し、会話がより深くなるにつれて、正しい出力モダリティを特定し、それに応じてコヒーレント画像を生成する際の課題に直面しています。
したがって、既製のMLLMSとT2Iモデルを整列させる効果的なパイプラインであるDialogenを提案し、マルチターンテキストからイメージの生成のためのマルチモーダルインタラクティブダイアログシステム(MIDS)を構築します。
これは、迅速なアライメント、慎重なトレーニングデータのキュレーション、およびエラー修正の描画で構成されています。
さらに、中間のフィールドが繁栄するにつれて、出力モダリティの正確性とマルチモーダル出力コヒーレンスの観点からMIDSを公正に評価するために、包括的なベンチマークが緊急に必要です。
この問題に対処するために、MLLMSが画像編集をサポートする正確でコヒーレントなマルチモーダルコンテンツを生成する能力を評価するために設計された包括的なバイリンガルベンチマークであるマルチモーダルダイアログベンチマーク(Dialogben)を紹介します。
モダリティを切り替えるモデルの能力と出力画像の一貫性を測定するための2つの評価メトリックが含まれています。
ダイアログベンとユーザー調査に関する当社の広範な実験は、他の最先端のモデルと比較して対話者の有効性を示しています。

要約(オリジナル)

Text-to-image (T2I) generation models have significantly advanced in recent years. However, effective interaction with these models is challenging for average users due to the need for specialized prompt engineering knowledge and the inability to perform multi-turn image generation, hindering a dynamic and iterative creation process. Recent attempts have tried to equip Multi-modal Large Language Models (MLLMs) with T2I models to bring the user’s natural language instructions into reality. Hence, the output modality of MLLMs is extended, and the multi-turn generation quality of T2I models is enhanced thanks to the strong multi-modal comprehension ability of MLLMs. However, many of these works face challenges in identifying correct output modalities and generating coherent images accordingly as the number of output modalities increases and the conversations go deeper. Therefore, we propose DialogGen, an effective pipeline to align off-the-shelf MLLMs and T2I models to build a Multi-modal Interactive Dialogue System (MIDS) for multi-turn Text-to-Image generation. It is composed of drawing prompt alignment, careful training data curation, and error correction. Moreover, as the field of MIDS flourishes, comprehensive benchmarks are urgently needed to evaluate MIDS fairly in terms of output modality correctness and multi-modal output coherence. To address this issue, we introduce the Multi-modal Dialogue Benchmark (DialogBen), a comprehensive bilingual benchmark designed to assess the ability of MLLMs to generate accurate and coherent multi-modal content that supports image editing. It contains two evaluation metrics to measure the model’s ability to switch modalities and the coherence of the output images. Our extensive experiments on DialogBen and user study demonstrate the effectiveness of DialogGen compared with other State-of-the-Art models.

arxiv情報

著者 Minbin Huang,Yanxin Long,Xinchi Deng,Ruihang Chu,Jiangfeng Xiong,Xiaodan Liang,Hong Cheng,Qinglin Lu,Wei Liu
発行日 2025-04-18 11:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation はコメントを受け付けていません

Efficient Parameter Adaptation for Multi-Modal Medical Image Segmentation and Prognosis

要約

がんの検出と予後は、医療イメージング、特にCTとPETスキャンに大きく依存しています。
ディープニューラルネットワーク(DNNS)は、これらのモダリティから情報を融合することにより、腫瘍のセグメンテーションに有望を示しています。
ただし、重要なボトルネックが存在します。トレーニングと推論のためにCT-PETデータへの依存度は、PETスキャンの利用可能性が限られているために課題を提起します。
したがって、広く利用可能なCTスキャンでトレーニングできる柔軟で効率的なフレームワークが明確に必要であり、PETスキャンが利用可能になったときにまだ適応できます。
この作業では、PETスキャンが利用可能になったときに使用するために効率的に適応できるように、CTスキャンでのみ訓練されたトランスベースのセグメンテーションモデルの軽量アップグレードのためのパラメーター効率の高いマルチモーダル適応(PEMMA)フレームワークを提案します。
このフレームワークは、同じ効率的なクロスモーダル微調整アプローチを維持する予後タスクを実行するためにさらに拡張されています。
提案されたアプローチは、2つのよく知られている分離バックボーン、つまりUNETRとSWIN UNETRでテストされています。
私たちのアプローチは、2つの主な利点を提供します。
第一に、トランスアーキテクチャの固有のモジュール性を活用し、低ランク適応(LORA)と、パラメーター効率の高い適応を実現するために注意重みの低ランク適応(DORA)を分解する(DORA)を実行します。
第二に、クロスモーダルエンタングルメントを最小限に抑えることにより、Pemmaは、他の壊滅的な忘却を引き起こすことなく、1つのモダリティのみを使用して更新を許可します。
私たちの方法は、早期の融合に匹敵するパフォーマンスを達成しますが、トレーニング可能なパラメーターの8%のみで、単一のモダリティでトレーニングされた場合、PETスキャンで大幅な +28%のDICEスコアの改善を示します。
さらに、予後において、私たちの方法は、CTプレーンモデルをPETスキャンを含めるために適応するときに一致指数を +10%改善し、PETデータとEHRデータの両方に適応するときに +23%を改善します。

要約(オリジナル)

Cancer detection and prognosis relies heavily on medical imaging, particularly CT and PET scans. Deep Neural Networks (DNNs) have shown promise in tumor segmentation by fusing information from these modalities. However, a critical bottleneck exists: the dependency on CT-PET data concurrently for training and inference, posing a challenge due to the limited availability of PET scans. Hence, there is a clear need for a flexible and efficient framework that can be trained with the widely available CT scans and can be still adapted for PET scans when they become available. In this work, we propose a parameter-efficient multi-modal adaptation (PEMMA) framework for lightweight upgrading of a transformer-based segmentation model trained only on CT scans such that it can be efficiently adapted for use with PET scans when they become available. This framework is further extended to perform prognosis task maintaining the same efficient cross-modal fine-tuning approach. The proposed approach is tested with two well-known segementation backbones, namely UNETR and Swin UNETR. Our approach offers two main advantages. Firstly, we leverage the inherent modularity of the transformer architecture and perform low-rank adaptation (LoRA) as well as decomposed low-rank adaptation (DoRA) of the attention weights to achieve parameter-efficient adaptation. Secondly, by minimizing cross-modal entanglement, PEMMA allows updates using only one modality without causing catastrophic forgetting in the other. Our method achieves comparable performance to early fusion, but with only 8% of the trainable parameters, and demonstrates a significant +28% Dice score improvement on PET scans when trained with a single modality. Furthermore, in prognosis, our method improves the concordance index by +10% when adapting a CT-pretrained model to include PET scans, and by +23% when adapting for both PET and EHR data.

arxiv情報

著者 Numan Saeed,Shahad Hardan,Muhammad Ridzuan,Nada Saadi,Karthik Nandakumar,Mohammad Yaqub
発行日 2025-04-18 11:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Efficient Parameter Adaptation for Multi-Modal Medical Image Segmentation and Prognosis はコメントを受け付けていません

Lightweight LiDAR-Camera 3D Dynamic Object Detection and Multi-Class Trajectory Prediction

要約

多くの場合、サービスモバイルロボットは、タスクを実行しながら動的なオブジェクトを避けるために必要ですが、通常、計算リソースは限られています。
そのため、3Dオブジェクトの検出と軌道予測のための軽量のマルチモーダルフレームワークを提示します。
私たちのシステムは、3Dスペースの歩行者、車両、ライダーのリアルタイム認識を実現するために、Lidarとカメラの入力を相乗的に統合します。
フレームワークは、2つの新しいモジュールを提案します。1)高精度と許容量の計算量を備えたオブジェクト検出のためのクロスモーダル変形トランス(CMDT)、および2)柔軟な隔離長さのマルチクラスオブジェクトの効率的かつ多様な軌道予測のための参照軌跡ベースのマルチクラストランス(RTMCT)。
CODAベンチマークの評価は、検出全体(MAPで+2.03%)および軌道予測(歩行者のMinade5で-0.408m)メトリック全体で優れたパフォーマンスを示しています。
驚くべきことに、このシステムは例外的な展開可能性を示します – エントリーレベルのNVIDIA 3060 GPUを備えた車椅子ロボットに実装された場合、13.2 fpsでリアルタイムの推論を実現します。
再現性と実用的な展開を促進するために、メソッドの関連コードをhttps://github.com/tosshero/3d_perceptionとそのROS推論バージョンでhttps://github.com/tosshero/ros_packagesでリリースします。

要約(オリジナル)

Service mobile robots are often required to avoid dynamic objects while performing their tasks, but they usually have only limited computational resources. So we present a lightweight multi-modal framework for 3D object detection and trajectory prediction. Our system synergistically integrates LiDAR and camera inputs to achieve real-time perception of pedestrians, vehicles, and riders in 3D space. The framework proposes two novel modules: 1) a Cross-Modal Deformable Transformer (CMDT) for object detection with high accuracy and acceptable amount of computation, and 2) a Reference Trajectory-based Multi-Class Transformer (RTMCT) for efficient and diverse trajectory prediction of mult-class objects with flexible trajectory lengths. Evaluations on the CODa benchmark demonstrate superior performance over existing methods across detection (+2.03% in mAP) and trajectory prediction (-0.408m in minADE5 of pedestrians) metrics. Remarkably, the system exhibits exceptional deployability – when implemented on a wheelchair robot with an entry-level NVIDIA 3060 GPU, it achieves real-time inference at 13.2 fps. To facilitate reproducibility and practical deployment, we release the related code of the method at https://github.com/TossherO/3D_Perception and its ROS inference version at https://github.com/TossherO/ros_packages.

arxiv情報

著者 Yushen He,Lei Zhao,Tianchen Deng,Zipeng Fang,Weidong Chen
発行日 2025-04-18 11:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Lightweight LiDAR-Camera 3D Dynamic Object Detection and Multi-Class Trajectory Prediction はコメントを受け付けていません