Concept Guided Co-salient Object Detection

要約

Co-Salient Object Detection(Co-​​SOD)は、関連する画像のグループ全体で共通の顕著なオブジェクトを識別することを目的としています。
最近の方法は顕著な進歩を遂げていますが、通常、低レベルの視覚パターンに依存し、セマンティックな事前に欠けているため、検出パフォーマンスが制限されています。
ConceptCosodを提案します。これは、協調性検出を強化するために高レベルのセマンティック知識を導入するコンセプトガイド付きフレームワークです。
入力画像グループから共有されたテキストベースの概念を抽出することにより、ConceptCoSODは、検出プロセスを固定するセマンティックガイダンスを提供します。
概念の品質をさらに向上させるために、拡散タイムステップの効果を分析し、堅牢な概念を学習するためのより有益な手順を選択するリサンプリング戦略を設計します。
このセマンティックな事前は、再サンプリングが強化された表現と組み合わせて、視覚的条件に挑戦しても、正確で一貫したセグメンテーションを可能にします。
3つのベンチマークデータセットと5つの破損した設定での広範な実験は、ConceptCoSODが精度と一般化の両方で既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

Co-salient object detection (Co-SOD) aims to identify common salient objects across a group of related images. While recent methods have made notable progress, they typically rely on low-level visual patterns and lack semantic priors, limiting their detection performance. We propose ConceptCoSOD, a concept-guided framework that introduces high-level semantic knowledge to enhance co-saliency detection. By extracting shared text-based concepts from the input image group, ConceptCoSOD provides semantic guidance that anchors the detection process. To further improve concept quality, we analyze the effect of diffusion timesteps and design a resampling strategy that selects more informative steps for learning robust concepts. This semantic prior, combined with the resampling-enhanced representation, enables accurate and consistent segmentation even in challenging visual conditions. Extensive experiments on three benchmark datasets and five corrupted settings demonstrate that ConceptCoSOD significantly outperforms existing methods in both accuracy and generalization.

arxiv情報

著者 Jiayi Zhu,Qing Guo,Felix Juefei-Xu,Yihao Huang,Yang Liu,Geguang Pu
発行日 2025-06-17 13:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Concept Guided Co-salient Object Detection はコメントを受け付けていません

Towards Reliable WMH Segmentation under Domain Shift: An Application Study using Maximum Entropy Regularization to Improve Uncertainty Estimation

要約

特に多発性硬化症の文脈において、臨床的意思決定には、白質高強度(WMH)の正確なセグメンテーションが重要です。
ただし、MRIマシンタイプのバリエーションや取得パラメーターなどのドメインシフトは、モデル化と不確実性の推定に大きな課題をもたらします。
この研究では、最大エントロピーの正規化手法を提案してモデルのキャリブレーションと不確実性の推定を強化することにより、WMHセグメンテーションに対するドメインシフトの影響を調査します。
これを行うために、U-NETアーキテクチャを使用して実験を行い、2つの公開されたデータセットでこれらの正規化スキームを評価し、サイコロ係数、予想されるキャリブレーションエラー、およびエントロピーベースの不確実性推定値を使用したパフォーマンスを評価しました。
我々の結果は、エントロピーベースの不確実性の推定値がセグメンテーションエラーを予測できることを示しており、最大エントロピーの正規化により、不確実性とセグメンテーションパフォーマンスの相関がさらに強化され、ドメインシフト下でのモデルキャリブレーションが改善されることが示されています。

要約(オリジナル)

Accurate segmentation of white matter hyperintensities (WMH) is crucial for clinical decision-making, particularly in the context of multiple sclerosis. However, domain shifts, such as variations in MRI machine types or acquisition parameters, pose significant challenges to model calibration and uncertainty estimation. This study investigates the impact of domain shift on WMH segmentation by proposing maximum-entropy regularization techniques to enhance model calibration and uncertainty estimation, with the purpose of identifying errors post-deployment using predictive uncertainty as a proxy measure that does not require ground-truth labels. To do this, we conducted experiments using a U-Net architecture to evaluate these regularization schemes on two publicly available datasets, assessing performance with the Dice coefficient, expected calibration error, and entropy-based uncertainty estimates. Our results show that entropy-based uncertainty estimates can anticipate segmentation errors, and that maximum-entropy regularization further strengthens the correlation between uncertainty and segmentation performance while also improving model calibration under domain shift.

arxiv情報

著者 Franco Matzkin,Agostina Larrazabal,Diego H Milone,Jose Dolz,Enzo Ferrante
発行日 2025-06-17 13:21:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Towards Reliable WMH Segmentation under Domain Shift: An Application Study using Maximum Entropy Regularization to Improve Uncertainty Estimation はコメントを受け付けていません

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

要約

画像キャプションペアで伝えられるユーモアや皮肉を含むマルチモーダルパンチラインは、オンラインマルチメディアプラットフォームでの一般的なコミュニケーション方法です。
マルチモーダル大手言語モデル(MLLM)の急速な発展により、これらのパンチラインを効果的に理解する能力を評価することが不可欠です。
ただし、パンチラインの理解に関する既存のベンチマークは、3つの主要な制限に悩まされています。1)モデルがテキストのみに依存できるようにする言語ショートカット、2)質問の多様性の欠如、および3)マルチモーダルコンテンツの特定のドメイン(例えば、漫画)に焦点を絞ります。
これらの制限に対処するために、マルチモーダル\ textbf {punch} line enduling \ textbf {bench} mark、named \ textbf {punchbench}を紹介します。
評価の精度を向上させるために、元のキャプションを変更することにより、同義語と反意語のキャプションを生成します。これにより、キャプション内のショートカットの影響が軽減されます。
包括的な評価を提供するために、Punchbenchにはさまざまなドメインからの多様な質問形式と画像キャプションが組み込まれています。
これに基づいて、私たちは広範な評価を実施し、パンチラインの理解における最先端のMLLMと人間の間に大きなギャップを明らかにします。
パンチラインの理解を深めるために、シンプルな複雑なチェーンオブクエスト(SC-COQ)戦略を提案し、モデルが最初にシンプルな質問を習得することで複雑な質問に徐々に対処できるようにします。
SC-COQは、パンチベンチでのさまざまなMLLMのパフォーマンスを効果的に向上させ、コンテキスト内の学習とチェーンを上回ります。

要約(オリジナル)

Multimodal punchlines, which involve humor or sarcasm conveyed in image-caption pairs, are a popular way of communication on online multimedia platforms. With the rapid development of multimodal large language models (MLLMs), it is essential to assess their ability to effectively comprehend these punchlines. However, existing benchmarks on punchline comprehension suffer from three major limitations: 1) language shortcuts that allow models to solely rely on text, 2) lack of question diversity, and 3) narrow focus on a specific domain of multimodal content (e.g., cartoon). To address these limitations, we introduce a multimodal \textbf{Punch}line comprehension \textbf{Bench}mark, named \textbf{PunchBench}, which is tailored for accurate and comprehensive evaluation of punchline comprehension. To enhance the evaluation accuracy, we generate synonymous and antonymous captions by modifying original captions, which mitigates the impact of shortcuts in the captions. To provide a comprehensive evaluation, PunchBench incorporates diverse question formats and image-captions from various domains. On this basis, we conduct extensive evaluations and reveal a significant gap between state-of-the-art MLLMs and humans in punchline comprehension. To improve punchline comprehension, we propose Simple-to-Complex Chain-of-Question (SC-CoQ) strategy, enabling the models to incrementally address complicated questions by first mastering simple ones. SC-CoQ effectively enhances the performance of various MLLMs on PunchBench, surpassing in-context learning and chain-of-thought.

arxiv情報

著者 Kun Ouyang,Yuanxin Liu,Shicheng Li,Yi Liu,Hao Zhou,Fandong Meng,Jie Zhou,Xu Sun
発行日 2025-06-17 13:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension はコメントを受け付けていません

MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution

要約

顔面微小表現認識(MER)は、一時的で微妙な微小標識(ME)アクションのため、挑戦的な問題です。
ほとんどの既存の方法は、手作りの機能、開始、頂点、オフセットフレームなどのキーフレーム、または小規模および低双方のデータセットによって制限されているディープネットワークに依存します。
この論文では、トランス、グラフの畳み込み、バニラの畳み込みからの利点を備えたエンドツーエンドのマイクロアクションを意識するディープラーニングフレームワークを提案します。
特に、キーフレームの事前知識なしに、一連の生フレームからローカルグローバルの特徴を直接抽出するために、完全に接続された畳み込みとチャネル対応畳み込みで構成される新しいF5Cブロックを提案します。
変圧器スタイルの完全に接続された畳み込みは、グローバルな受容フィールドを維持しながらローカル機能を抽出するために提案されており、グラフスタイルのチャネル対応畳み込みが導入され、特徴パターン間の相関をモデル化します。
さらに、MER、光学フロー推定、および顔面ランドマークの検出は、ローカルグローバル機能を共有することにより、共同でトレーニングされます。
後者の2つのタスクは、MERの顔の微妙なアクション情報のキャプチャに貢献しており、トレーニングデータが不十分な影響を軽減できます。
広範な実験は、(i)CASME II、SAMM、およびSMICベンチマークの最先端のMERメソッドを上回ることを実証しています。
このコードは、https://github.com/cyf-cuber/molで入手できます。

要約(オリジナル)

Facial micro-expression recognition (MER) is a challenging problem, due to transient and subtle micro-expression (ME) actions. Most existing methods depend on hand-crafted features, key frames like onset, apex, and offset frames, or deep networks limited by small-scale and low-diversity datasets. In this paper, we propose an end-to-end micro-action-aware deep learning framework with advantages from transformer, graph convolution, and vanilla convolution. In particular, we propose a novel F5C block composed of fully-connected convolution and channel correspondence convolution to directly extract local-global features from a sequence of raw frames, without the prior knowledge of key frames. The transformer-style fully-connected convolution is proposed to extract local features while maintaining global receptive fields, and the graph-style channel correspondence convolution is introduced to model the correlations among feature patterns. Moreover, MER, optical flow estimation, and facial landmark detection are jointly trained by sharing the local-global features. The two latter tasks contribute to capturing facial subtle action information for MER, which can alleviate the impact of insufficient training data. Extensive experiments demonstrate that our framework (i) outperforms the state-of-the-art MER methods on CASME II, SAMM, and SMIC benchmarks, (ii) works well for optical flow estimation and facial landmark detection, and (iii) can capture facial subtle muscle actions in local regions associated with MEs. The code is available at https://github.com/CYF-cuber/MOL.

arxiv情報

著者 Zhiwen Shao,Yifan Cheng,Feiran Li,Yong Zhou,Xuequan Lu,Yuan Xie,Lizhuang Ma
発行日 2025-06-17 13:35:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution はコメントを受け付けていません

SIRI-Bench: Challenging VLMs’ Spatial Intelligence through Complex Reasoning Tasks

要約

大規模な言語モデル(LLM)は、複雑な推論で急速な進歩を経験しており、数学とプログラミングの顕著な一般化を示しています。
対照的に、空間知能は現実世界の相互作用におけるビジョン言語モデル(VLM)の基本ですが、空間的コンテキスト内での複雑な推論能力の体系的な評価は未掘削装置のままです。
このギャップを埋めるために、ビデオベースの推論タスクを通じてVLMSの空間インテリジェンスを評価するために設計されたベンチマークであるSiri-Benchを紹介します。
Siri-Benchは、1K近くのビデオ質問を回答するトリプレットで構成されており、各問題は現実的な3Dシーンに埋め込まれ、ビデオでキャプチャされます。
質問と対応する3Dシーンを慎重に設計することにより、質問を解決するには、情報を抽出するための空間的理解とソリューションを導き出すための高レベルの推論の両方が必要であり、VLMを評価するための挑戦的なベンチマークになることを保証します。
大規模なデータ合成を促進するために、自動シーン作成エンジンを開発します。
複数の専門LLMエージェントを活用するこのエンジンは、抽象的な数学の問題から現実的な3Dシーンを生成し、元の説明への忠実さを確保することができます。
実験結果は、最先端のVLMSがSiri-Benchで大幅に苦労しており、空間的推論の課題を強調していることを明らかにしています。
私たちの研究が、空間的に根拠のある推論に研究者の注意を喚起し、視覚的な問題解決におけるVLMを前進させることを願っています。

要約(オリジナル)

Large Language Models (LLMs) are experiencing rapid advancements in complex reasoning, exhibiting remarkable generalization in mathematics and programming. In contrast, while spatial intelligence is fundamental for Vision-Language Models (VLMs) in real-world interaction, the systematic evaluation of their complex reasoning ability within spatial contexts remains underexplored. To bridge this gap, we introduce SIRI-Bench, a benchmark designed to evaluate VLMs’ spatial intelligence through video-based reasoning tasks. SIRI-Bench comprises nearly 1K video-question-answer triplets, where each problem is embedded in a realistic 3D scene and captured by video. By carefully designing questions and corresponding 3D scenes, our benchmark ensures that solving the questions requires both spatial comprehension for extracting information and high-level reasoning for deriving solutions, making it a challenging benchmark for evaluating VLMs. To facilitate large-scale data synthesis, we develop an Automatic Scene Creation Engine. This engine, leveraging multiple specialized LLM agents, can generate realistic 3D scenes from abstract math problems, ensuring faithfulness to the original descriptions. Experimental results reveal that state-of-the-art VLMs struggle significantly on SIRI-Bench, underscoring the challenge of spatial reasoning. We hope that our study will bring researchers’ attention to spatially grounded reasoning and advance VLMs in visual problem-solving.

arxiv情報

著者 Zijian Song,Xiaoxin Lin,Qiuming Huang,Guangrun Wang,Liang Lin
発行日 2025-06-17 13:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SIRI-Bench: Challenging VLMs’ Spatial Intelligence through Complex Reasoning Tasks はコメントを受け付けていません

GAMORA: A Gesture Articulated Meta Operative Robotic Arm for Hazardous Material Handling in Containment-Level Environments

要約

ロボット工学と仮想現実(VR)の収束により、高リスクの実験室の設定、特にウイルス学ラボでより安全で効率的なワークフローが可能になりました。
バイオハザードの複雑さが増加すると、精度を維持しながら直接的な人間への曝露を最小限に抑えることが不可欠になります。
Gamora(Gesture Articulated Meta Operative Robotic Arm)を提案します。これは、自然な手のジェスチャーを使用して危険なタスクのリモート実行を可能にする新しいVR誘導ロボットシステムです。
既存のスクリプト化された自動化や従来のテレオ操作とは異なり、GamoraはOculus Quest 2、Nvidia Jetson Nano、およびRobotオペレーティングシステム(ROS)を統合して、リアルタイムの没入型制御、デジタルツインシミュレーション、および逆の動機ベースの明確化を提供します。
このシステムは、3Dプリントされたロボットアームを介して物理環境で精密タスクを実行しながら、VRベースのトレーニングとシミュレーションをサポートします。
逆運動学は、標本の取り扱いやピペットなどの繊細な操作のための正確な操作を保証します。
パイプラインには、UNITYベースの3D環境構造、リアルタイムモーションプランニング、ループインハードウェアテストが含まれます。
ガモラは、2.2 mmの平均位置の矛盾(4 mmから改善)、0.2 mL以内のピペッティング精度、50回の試行で1.2 mmの再現性を達成しました。
Yolov8を介した統合オブジェクトの検出は空間的認識を高め、エネルギー効率の高い動作(50%減少した出力)により、持続可能な展開が保証されます。
システムのデジタルフィードバックループは、高リスクのラボタスクの安全で正確で反復可能な自動化を可能にします。
Gamoraは、生物医学研究環境におけるロボット制御とバイオセーフティのためのスケーラブルで没入型のソリューションを提供します。

要約(オリジナル)

The convergence of robotics and virtual reality (VR) has enabled safer and more efficient workflows in high-risk laboratory settings, particularly virology labs. As biohazard complexity increases, minimizing direct human exposure while maintaining precision becomes essential. We propose GAMORA (Gesture Articulated Meta Operative Robotic Arm), a novel VR-guided robotic system that enables remote execution of hazardous tasks using natural hand gestures. Unlike existing scripted automation or traditional teleoperation, GAMORA integrates the Oculus Quest 2, NVIDIA Jetson Nano, and Robot Operating System (ROS) to provide real-time immersive control, digital twin simulation, and inverse kinematics-based articulation. The system supports VR-based training and simulation while executing precision tasks in physical environments via a 3D-printed robotic arm. Inverse kinematics ensure accurate manipulation for delicate operations such as specimen handling and pipetting. The pipeline includes Unity-based 3D environment construction, real-time motion planning, and hardware-in-the-loop testing. GAMORA achieved a mean positional discrepancy of 2.2 mm (improved from 4 mm), pipetting accuracy within 0.2 mL, and repeatability of 1.2 mm across 50 trials. Integrated object detection via YOLOv8 enhances spatial awareness, while energy-efficient operation (50% reduced power output) ensures sustainable deployment. The system’s digital-physical feedback loop enables safe, precise, and repeatable automation of high-risk lab tasks. GAMORA offers a scalable, immersive solution for robotic control and biosafety in biomedical research environments.

arxiv情報

著者 Farha Abdul Wasay,Mohammed Abdul Rahman,Hania Ghouse
発行日 2025-06-17 13:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | GAMORA: A Gesture Articulated Meta Operative Robotic Arm for Hazardous Material Handling in Containment-Level Environments はコメントを受け付けていません

Train Once, Forget Precisely: Anchored Optimization for Efficient Post-Hoc Unlearning

要約

機械学習システムは、プライバシー規制の対象となるデータにますます依存しているため、訓練されたモデルからの特定の情報を選択的に学習することが不可欠になりました。
画像分類では、これには、完全な再訓練なしで特定のトレーニングサンプル、セマンティッククラス、または視覚スタイルの影響を削除することが含まれます。
\ textbf {forging-aligned Model Reconstruction(FAMR)}を紹介します。これは、深い画像分類子での事後解除のための理論的に接地された計算効率的なフレームワークです。
FAMRフレームは、$ \ ELL_2 $のペナルティを介してモデルパラメーターを元の値に固定しながら、忘却セットの均一な予測損失を最小限に抑える制約された最適化問題として忘れています。
理論分析では、FAMRのソリューションを、パラメーターと出力偏差に境界を備えた、影響機能ベースのレトレーニング近似にリンクします。
CIFAR-10とImagenet-100を使用したクラスの忘却タスクの経験的結果は、強力なパフォーマンス保持と最小限の計算オーバーヘッドでFAMRの有効性を示しています。
このフレームワークは、概念とスタイルの消去に自然に一般化し、ビジョンモデルで効率的な事後忘却へのスケーラブルで認証可能なルートを提供します。

要約(オリジナル)

As machine learning systems increasingly rely on data subject to privacy regulation, selectively unlearning specific information from trained models has become essential. In image classification, this involves removing the influence of particular training samples, semantic classes, or visual styles without full retraining. We introduce \textbf{Forget-Aligned Model Reconstruction (FAMR)}, a theoretically grounded and computationally efficient framework for post-hoc unlearning in deep image classifiers. FAMR frames forgetting as a constrained optimization problem that minimizes a uniform-prediction loss on the forget set while anchoring model parameters to their original values via an $\ell_2$ penalty. A theoretical analysis links FAMR’s solution to influence-function-based retraining approximations, with bounds on parameter and output deviation. Empirical results on class forgetting tasks using CIFAR-10 and ImageNet-100 demonstrate FAMR’s effectiveness, with strong performance retention and minimal computational overhead. The framework generalizes naturally to concept and style erasure, offering a scalable and certifiable route to efficient post-hoc forgetting in vision models.

arxiv情報

著者 Prabhav Sanga,Jaskaran Singh,Arun K. Dubey
発行日 2025-06-17 13:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Train Once, Forget Precisely: Anchored Optimization for Efficient Post-Hoc Unlearning はコメントを受け付けていません

Inherently Faithful Attention Maps for Vision Transformers

要約

学習したバイナリ注意マスクを使用して、参加した画像領域のみが予測に影響を与えることを保証する注意ベースの方法を紹介します。
コンテキストは、オブジェクトの知覚に強く影響し、特にオブジェクトが分散式の背景に表示される場合、偏った表現につながる場合があります。
同時に、多くの画像レベルのオブジェクト中心のタスクには、関連する領域を特定する必要があり、多くの場合コンテキストが必要です。
この難問に対処するために、2段階のフレームワークを提案します。ステージ1は完全な画像を処理してオブジェクトの部分を発見し、タスク関連領域を特定します。ステージ2は、注意マスキングをレバレッジして、これらの領域に受容フィールドを制限し、潜在的に偽りの情報をフィルタリングしながら集中的な分析を可能にします。
両方の段階が共同でトレーニングされているため、ステージ2がステージ1を改良します。さまざまなベンチマーク全体の広範な実験は、私たちのアプローチが偽の相関と分散型の背景に対する堅牢性を大幅に改善することを示しています。
コード:https://github.com/ananthu-aniraj/ifam

要約(オリジナル)

We introduce an attention-based method that uses learned binary attention masks to ensure that only attended image regions influence the prediction. Context can strongly affect object perception, sometimes leading to biased representations, particularly when objects appear in out-of-distribution backgrounds. At the same time, many image-level object-centric tasks require identifying relevant regions, often requiring context. To address this conundrum, we propose a two-stage framework: stage 1 processes the full image to discover object parts and identify task-relevant regions, while stage 2 leverages input attention masking to restrict its receptive field to these regions, enabling a focused analysis while filtering out potentially spurious information. Both stages are trained jointly, allowing stage 2 to refine stage 1. Extensive experiments across diverse benchmarks demonstrate that our approach significantly improves robustness against spurious correlations and out-of-distribution backgrounds. Code: https://github.com/ananthu-aniraj/ifam

arxiv情報

著者 Ananthu Aniraj,Cassio F. Dantas,Dino Ienco,Diego Marcos
発行日 2025-06-17 13:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Inherently Faithful Attention Maps for Vision Transformers はコメントを受け付けていません

Integrating Radiomics with Deep Learning Enhances Multiple Sclerosis Lesion Delineation

要約

背景:正確な病変のセグメンテーションは、多発性硬化症(MS)診断にとって重要ですが、現在の深い学習アプローチは堅牢性の課題に直面しています。
目的:この研究は、データの融合と深い学習技術を組み合わせることにより、MS病変のセグメンテーションを改善します。
材料と方法:さまざまなMS病変タイプを特徴付け、生のイメージングデータと融合するために、新しい放射性特徴(濃度率とr \ ‘enyiエントロピー)を提案しました。
この研究では、ResNext-Unetアーキテクチャと注意を積んだU-Netアーキテクチャを介したラジオミック機能とイメージングデータを統合しました。
私たちのアプローチは、46人の患者(1102スライス)のスキャンで評価され、データ融合の前後のパフォーマンスを比較しました。
結果:Radiomicsが強化したResnext-Unetは、高いセグメンテーション精度を実証し、MRIのみのベースラインに比べて精度と感度の大幅な改善を達成し、0.774 $ \ PM $ 0.05のDICEスコアを達成しました。
P <0.001 Bonferroni-Adjusted Wilcoxon署名ランクテストによると。 ラジオミクス強化の注意を強化したU-NETモデルは、パフォーマンスの変動性の低下(SDD = 0.18 $ \ PM $ 0.09対0.21 $ $ \ PM $ 0.06; P = 0.03)およびラジオミクス統合を備えたスムーズな検証曲線によって明らかなモデルの安定性が大きくなることを示しました。 結論:これらの結果は、ラジオミクスと生のイメージングデータを融合させると、最先端のモデルのセグメンテーションパフォーマンスと安定性を高めるという仮説を検証します。

要約(オリジナル)

Background: Accurate lesion segmentation is critical for multiple sclerosis (MS) diagnosis, yet current deep learning approaches face robustness challenges. Aim: This study improves MS lesion segmentation by combining data fusion and deep learning techniques. Materials and Methods: We suggested novel radiomic features (concentration rate and R\’enyi entropy) to characterize different MS lesion types and fused these with raw imaging data. The study integrated radiomic features with imaging data through a ResNeXt-UNet architecture and attention-augmented U-Net architecture. Our approach was evaluated on scans from 46 patients (1102 slices), comparing performance before and after data fusion. Results: The radiomics-enhanced ResNeXt-UNet demonstrated high segmentation accuracy, achieving significant improvements in precision and sensitivity over the MRI-only baseline and a Dice score of 0.774$\pm$0.05; p<0.001 according to Bonferroni-adjusted Wilcoxon signed-rank tests. The radiomics-enhanced attention-augmented U-Net model showed a greater model stability evidenced by reduced performance variability (SDD = 0.18 $\pm$ 0.09 vs. 0.21 $\pm$ 0.06; p=0.03) and smoother validation curves with radiomics integration. Conclusion: These results validate our hypothesis that fusing radiomics with raw imaging data boosts segmentation performance and stability in state-of-the-art models.

arxiv情報

著者 Nadezhda Alsahanova,Pavel Bartenev,Maksim Sharaev,Milos Ljubisavljevic,Taleb Al. Mansoori,Yauhen Statsenko
発行日 2025-06-17 13:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Integrating Radiomics with Deep Learning Enhances Multiple Sclerosis Lesion Delineation はコメントを受け付けていません

VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy

要約

このペーパーでは、SAFE UAV(無人航空機)着陸のための単眼3D認識ベースのフレームワークであるVislandingを紹介します。
複雑で未知の環境における自律UAV着陸の中心的な課題に対処するこの研究は、Metric3D V2モデルの深さ通常の相乗効果能力を革新的に活用して、エンドツーエンドの安全な着陸ゾーン(SLZ)推定フレームワークを構築します。
セーフゾーンセグメンテーションブランチを導入することにより、着陸ゾーンの推定タスクをバイナリセマンティックセグメンテーション問題に変換します。
このモデルは、UAVの観点からWildUavデータセットを使用して微調整および注釈が付けられていますが、モデルの堅牢性を検証するためにクロスドメイン評価データセットが構築されています。
実験結果は、視覚障害が深さ通常のジョイント最適化メカニズムを介して安全ゾーンの識別の精度を大幅に向上させ、Metric3D V2のゼロショット一般化の利点を保持することを示しています。
提案された方法は、他のアプローチと比較して、クロスドメインテストにおいて優れた一般化と堅牢性を示します。
さらに、予測された深さと通常の情報を統合し、実用的なアプリケーションに重要な意思決定サポートを提供することにより、着陸ゾーンエリアの推定が可能になります。

要約(オリジナル)

This paper presents VisLanding, a monocular 3D perception-based framework for safe UAV (Unmanned Aerial Vehicle) landing. Addressing the core challenge of autonomous UAV landing in complex and unknown environments, this study innovatively leverages the depth-normal synergy prediction capabilities of the Metric3D V2 model to construct an end-to-end safe landing zones (SLZ) estimation framework. By introducing a safe zone segmentation branch, we transform the landing zone estimation task into a binary semantic segmentation problem. The model is fine-tuned and annotated using the WildUAV dataset from a UAV perspective, while a cross-domain evaluation dataset is constructed to validate the model’s robustness. Experimental results demonstrate that VisLanding significantly enhances the accuracy of safe zone identification through a depth-normal joint optimization mechanism, while retaining the zero-shot generalization advantages of Metric3D V2. The proposed method exhibits superior generalization and robustness in cross-domain testing compared to other approaches. Furthermore, it enables the estimation of landing zone area by integrating predicted depth and normal information, providing critical decision-making support for practical applications.

arxiv情報

著者 Zhuoyue Tan,Boyong He,Yuxiang Ji,Liaoni Wu
発行日 2025-06-17 13:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy はコメントを受け付けていません