Vision-based Lifting of 2D Object Detections for Automated Driving

要約

画像ベースの3Dオブジェクトの検出は、ほとんどの最新の車で安価なオンボードカメラがすでに利用可能であるため、自律運転の必然的な部分です。
正確な深さ情報のため、現在、ほとんどの最先端の3Dオブジェクト検出器は、LIDARデータに大きく依存しています。
この論文では、既存のビジョンベースの2Dアルゴリズムの結果を、LIDARの費用対効果の高い代替品としてカメラのみを使用して3D検出に持ち上げるパイプラインを提案します。
既存のアプローチとは対照的に、私たちは車だけでなく、あらゆるタイプの道路利用者に焦点を当てています。
私たちの知る限り、私たちは2D CNNを使用して、各2D検出のポイントクラウドを処理して、計算の取り組みを可能な限り低く保つ最初のものです。
挑戦的なKitti 3Dオブジェクト検出ベンチマークに関する私たちの評価は、ランタイムが3分の1しかない間、最先端の画像ベースのアプローチに匹敵する結果を示しています。

要約(オリジナル)

Image-based 3D object detection is an inevitable part of autonomous driving because cheap onboard cameras are already available in most modern cars. Because of the accurate depth information, currently, most state-of-the-art 3D object detectors heavily rely on LiDAR data. In this paper, we propose a pipeline which lifts the results of existing vision-based 2D algorithms to 3D detections using only cameras as a cost-effective alternative to LiDAR. In contrast to existing approaches, we focus not only on cars but on all types of road users. To the best of our knowledge, we are the first using a 2D CNN to process the point cloud for each 2D detection to keep the computational effort as low as possible. Our evaluation on the challenging KITTI 3D object detection benchmark shows results comparable to state-of-the-art image-based approaches while having a runtime of only a third.

arxiv情報

著者 Hendrik Königshof,Kun Li,Christoph Stiller
発行日 2025-06-13 14:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Vision-based Lifting of 2D Object Detections for Automated Driving はコメントを受け付けていません

MindGrab for BrainChop: Fast and Accurate Skull Stripping for Command Line and Browser

要約

私たちは、モダリティの頭部画像で体積測定の頭蓋骨縞模様のためのパラメーターおよびメモリ効率の良い深い完全分合いのモデルであるMindGrabを開発しました。
拡張された畳み込みのスペクトル解釈によって通知されるそのアーキテクチャは、モダリティに依存しない合成データのみで訓練されました。
MindGrabは、SynthStripデータセットから調達した606マルチモーダル成人脳スキャン(T1、T2、DWI、MRA、PDW MRI、EPI、CT、PET)の回顧的データセットで評価されました。
Wilcoxonはランクの有意性テストで署名されたSynthStrip、Robex、およびBETに対して、Diceスコアを使用してベットに対してベンチマークされました。
MindGrabは、モダリティ全体で標準偏差(SD)1.6で95.9の平均DICEスコアを達成し、古典的な方法を大幅に上回る(Robex:89.1 SD 7.7、P <0.05; BET:85.2 SD 14.4、p <0.05)。 SynthStrip(96.5 SD 1.1、P = 0.0352)と比較して、MindGrabは、テストされたシナリオのほぼ半分で同等または優れたパフォーマンスを提供し、他のシナリオのわずかな違い(3%のサイコロ)がありました。 MindGrabは、SynthStripよりも95%少ないパラメーター(146,237対2,566,561)を利用しました。 この効率により、GPUでの少なくとも2倍の推論、50%のメモリ使用量が50%低くなり、ハイエンドGPUのないシステムを含む、より広い範囲のハードウェアで優れたパフォーマンス(最大30倍のスピードアップ、最大30倍のメモリ削減)とアクセシビリティを可能にしました。 MindGrabは、BrainChop-Cli(https://pypi.org/project/brainchop/)およびbrainchop.orgでサポートされている、劇的に低いリソース需要を備えた最先端の精度を提供します。

要約(オリジナル)

We developed MindGrab, a parameter- and memory-efficient deep fully-convolutional model for volumetric skull-stripping in head images of any modality. Its architecture, informed by a spectral interpretation of dilated convolutions, was trained exclusively on modality-agnostic synthetic data. MindGrab was evaluated on a retrospective dataset of 606 multimodal adult-brain scans (T1, T2, DWI, MRA, PDw MRI, EPI, CT, PET) sourced from the SynthStrip dataset. Performance was benchmarked against SynthStrip, ROBEX, and BET using Dice scores, with Wilcoxon signed-rank significance tests. MindGrab achieved a mean Dice score of 95.9 with standard deviation (SD) 1.6 across modalities, significantly outperforming classical methods (ROBEX: 89.1 SD 7.7, P < 0.05; BET: 85.2 SD 14.4, P < 0.05). Compared to SynthStrip (96.5 SD 1.1, P=0.0352), MindGrab delivered equivalent or superior performance in nearly half of the tested scenarios, with minor differences (<3% Dice) in the others. MindGrab utilized 95% fewer parameters (146,237 vs. 2,566,561) than SynthStrip. This efficiency yielded at least 2x faster inference, 50% lower memory usage on GPUs, and enabled exceptional performance (e.g., 10-30x speedup, and up to 30x memory reduction) and accessibility on a wider range of hardware, including systems without high-end GPUs. MindGrab delivers state-of-the-art accuracy with dramatically lower resource demands, supported in brainchop-cli (https://pypi.org/project/brainchop/) and at brainchop.org.

arxiv情報

著者 Armina Fani,Mike Doan,Isabelle Le,Alex Fedorov,Malte Hoffmann,Chris Rorden,Sergey Plis
発行日 2025-06-13 15:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.NE, eess.IV | MindGrab for BrainChop: Fast and Accurate Skull Stripping for Command Line and Browser はコメントを受け付けていません

SphereDrag: Spherical Geometry-Aware Panoramic Image Editing

要約

画像編集は平面画像で大きな進歩を遂げましたが、パノラマ画像編集は未描写のままです。
球状の形状と投影の歪みにより、パノラマ画像は、境界の不連続性、軌跡の変形、および不均一なピクセル密度の3つの重要な課題を示しています。
これらの問題に取り組むために、正確で制御可能な編集のために球状のジオメトリ知識を利用した新しいパノラマ編集フレームワークであるSpheredragを提案します。
具体的には、適応型再注射(AR)は、適応球体回転を使用して不連続性に対処します。
Great-Circle軌道調整(GCTA)は、動きの軌跡をより正確に追跡します。
球面検索領域追跡(SSRT)は、不均一なピクセル密度に対処するために、球状の位置に基づいて検索範囲を適応的にスケーリングします。
また、標準化された評価フレームワークを提供する複数のオブジェクトと多様なスタイルを含む複雑な編集タスクを含む、パノラマ編集ベンチマークであるPanobenchを構築します。
実験では、SpheredRagが幾何学的な一貫性と画質の既存の方法と比較してかなりの改善を獲得し、最大10.5%の相対的な改善を達成することが示されています。

要約(オリジナル)

Image editing has made great progress on planar images, but panoramic image editing remains underexplored. Due to their spherical geometry and projection distortions, panoramic images present three key challenges: boundary discontinuity, trajectory deformation, and uneven pixel density. To tackle these issues, we propose SphereDrag, a novel panoramic editing framework utilizing spherical geometry knowledge for accurate and controllable editing. Specifically, adaptive reprojection (AR) uses adaptive spherical rotation to deal with discontinuity; great-circle trajectory adjustment (GCTA) tracks the movement trajectory more accurate; spherical search region tracking (SSRT) adaptively scales the search range based on spherical location to address uneven pixel density. Also, we construct PanoBench, a panoramic editing benchmark, including complex editing tasks involving multiple objects and diverse styles, which provides a standardized evaluation framework. Experiments show that SphereDrag gains a considerable improvement compared with existing methods in geometric consistency and image quality, achieving up to 10.5% relative improvement.

arxiv情報

著者 Zhiao Feng,Xuewei Li,Junjie Yang,Yuxin Peng,Xi Li
発行日 2025-06-13 15:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SphereDrag: Spherical Geometry-Aware Panoramic Image Editing はコメントを受け付けていません

SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning

要約

MLLM研究の進歩を促進するには、効果的な評価が重要です。
視覚入力から将来のアクションシーケンスを生成することを目的とする外科的アクションプランニング(SAP)タスクは、正確で洗練された分析機能を要求します。
数学的推論とは異なり、外科的意思決定は人生の批判的なドメインで機能し、信頼性と患者の安全を確保するために細心の、検証可能なプロセスを必要とします。
このタスクには、原子視覚動作を区別し、現在のベンチマークによって不十分に評価される複雑で長期の手順を調整する能力が必要です。
このギャップに対処するために、マルチモーダル大型言語モデル(MLLM)が解釈可能な外科的行動計画を実行できるように設計された大規模で高品質のデータセットであるSAPベンチを導入します。
胆嚢摘出術の手順に由来するSAPベンチベンチマークは、1137.5Sの平均期間とのコンテキストに由来し、1,226の臨床的に検証されたアクションクリップ(平均期間:68.7S)を含む一時的に接地された外科的作用注釈を導入します。
データセットは、1,152の戦略的にサンプリングされた電流フレームを提供し、それぞれがマルチモーダル分析アンカーとして対応する次のアクションとペアになります。
MLLM-SAPフレームワークを提案し、MLLMを活用して、注入された外科的ドメインの知識で強化された現在の手術シーンと自然言語の指示から次のアクション推奨事項を生成します。
データセットの有効性と現在のモデルのより広範な機能を評価するために、7つの最先端のMLLM(例:OpenAI-O1、GPT-4O、QWENVL2.5-72B、3.5-SONNET、GEMINIPRO2.5、STEP-1O、およびGLM-4V)を評価し、次のアクションの踏切で重要なギャップを明らかにします。

要約(オリジナル)

Effective evaluation is critical for driving advancements in MLLM research. The surgical action planning (SAP) task, which aims to generate future action sequences from visual inputs, demands precise and sophisticated analytical capabilities. Unlike mathematical reasoning, surgical decision-making operates in life-critical domains and requires meticulous, verifiable processes to ensure reliability and patient safety. This task demands the ability to distinguish between atomic visual actions and coordinate complex, long-horizon procedures, capabilities that are inadequately evaluated by current benchmarks. To address this gap, we introduce SAP-Bench, a large-scale, high-quality dataset designed to enable multimodal large language models (MLLMs) to perform interpretable surgical action planning. Our SAP-Bench benchmark, derived from the cholecystectomy procedures context with the mean duration of 1137.5s, and introduces temporally-grounded surgical action annotations, comprising the 1,226 clinically validated action clips (mean duration: 68.7s) capturing five fundamental surgical actions across 74 procedures. The dataset provides 1,152 strategically sampled current frames, each paired with the corresponding next action as multimodal analysis anchors. We propose the MLLM-SAP framework that leverages MLLMs to generate next action recommendations from the current surgical scene and natural language instructions, enhanced with injected surgical domain knowledge. To assess our dataset’s effectiveness and the broader capabilities of current models, we evaluate seven state-of-the-art MLLMs (e.g., OpenAI-o1, GPT-4o, QwenVL2.5-72B, Claude-3.5-Sonnet, GeminiPro2.5, Step-1o, and GLM-4v) and reveal critical gaps in next action prediction performance.

arxiv情報

著者 Mengya Xu,Zhongzhen Huang,Dillan Imans,Yiru Ye,Xiaofan Zhang,Qi Dou
発行日 2025-06-13 15:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning はコメントを受け付けていません

Methods for evaluating the resolution of 3D data derived from satellite images

要約

衛星画像から派生した3Dデータは、大規模なカバレッジを必要とするアプリケーションをモデル化するシーンモデリングや、空中のライダーやカメラがアクセスできない場所を含むために不可欠です。
このデータの解像度を測定することは、ミッションユーティリティを決定し、改善を追跡するために重要です。
この作業では、ポイントクラウド、デジタル表面モデル、3Dメッシュモデルの解像度を評価する方法を検討します。
高解像度の参照空中ライダーに基づいて自動化された評価を可能にする3Dメトリック評価ツールとワークフローについて説明し、さまざまな品質のデータを使用して分析結果を提示します。

要約(オリジナル)

3D data derived from satellite images is essential for scene modeling applications requiring large-scale coverage or involving locations not accessible by airborne lidar or cameras. Measuring the resolution of this data is important for determining mission utility and tracking improvements. In this work, we consider methods to evaluate the resolution of point clouds, digital surface models, and 3D mesh models. We describe 3D metric evaluation tools and workflows that enable automated evaluation based on high-resolution reference airborne lidar, and we present results of analyses with data of varying quality.

arxiv情報

著者 Christina Selby,Holden Bindl,Tyler Feldman,Andrew Skow,Nicolas Norena Acosta,Shea Hagstrom,Myron Brown
発行日 2025-06-13 15:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Methods for evaluating the resolution of 3D data derived from satellite images はコメントを受け付けていません

CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

要約

Chexgenbenchを紹介します。これは、最先端のテキストから画像への生成モデル全体で忠実度、プライバシーリスク、臨床的有用性を同時に評価する合成胸部レントゲン写真生成のための厳密で多面的な評価フレームワークです。
現実世界の画像の生成AIの急速な進歩にもかかわらず、医療ドメインの評価は、方法論的な矛盾、時代遅れの建築的比較、および合成サンプルの実際の臨床価値にめったに対処しない評価基準を切断しました。
Chexgenbenchは、標準化されたデータパーティション化と、生成品質、潜在的なプライバシーの脆弱性、11の主要なテキストから画像のアーキテクチャにわたる下流の臨床的適用性を体系的に分析する20を超える定量的メトリックを含む統一された評価プロトコルを通じて、これらの制限を克服します。
我々の結果は、既存の評価プロトコル、特に生成的忠実度の評価における重要な非効率性を明らかにし、一貫性と情報のない比較につながります。
私たちのフレームワークは、医療AIコミュニティの標準化されたベンチマークを確立し、既存および将来の生成モデルの両方のシームレスな統合を促進しながら、客観的かつ再現可能な比較を可能にします。
さらに、この重要なドメインでのさらなる研究をサポートするために、ベンチマークで最高パフォーマンスモデル(SANA 0.6B)によって生成された75Kレントゲン写真を含む、高品質の合成データセット、SynthChex-75Kをリリースします。
Chexgenbenchを通じて、新しい最先端を確立し、https://raman1121.github.io/chexgenbench/でフレームワーク、モデル、およびSynthchex-75kデータセットをリリースします。

要約(オリジナル)

We introduce CheXGenBench, a rigorous and multifaceted evaluation framework for synthetic chest radiograph generation that simultaneously assesses fidelity, privacy risks, and clinical utility across state-of-the-art text-to-image generative models. Despite rapid advancements in generative AI for real-world imagery, medical domain evaluations have been hindered by methodological inconsistencies, outdated architectural comparisons, and disconnected assessment criteria that rarely address the practical clinical value of synthetic samples. CheXGenBench overcomes these limitations through standardised data partitioning and a unified evaluation protocol comprising over 20 quantitative metrics that systematically analyse generation quality, potential privacy vulnerabilities, and downstream clinical applicability across 11 leading text-to-image architectures. Our results reveal critical inefficiencies in the existing evaluation protocols, particularly in assessing generative fidelity, leading to inconsistent and uninformative comparisons. Our framework establishes a standardised benchmark for the medical AI community, enabling objective and reproducible comparisons while facilitating seamless integration of both existing and future generative models. Additionally, we release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K radiographs generated by the top-performing model (Sana 0.6B) in our benchmark to support further research in this critical domain. Through CheXGenBench, we establish a new state-of-the-art and release our framework, models, and SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/

arxiv情報

著者 Raman Dutt,Pedro Sanchez,Yongchen Yao,Steven McDonagh,Sotirios A. Tsaftaris,Timothy Hospedales
発行日 2025-06-13 15:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs はコメントを受け付けていません

Holstein-Friesian Re-Identification using Multiple Cameras and Self-Supervision on a Working Farm

要約

Multicamcows2024は、ユニークな白黒のコートパターンを利用する個々のホルスタイン – フリージアン牛の生体認証のために、複数のカメラで撮影された農場規模の画像データセットを提示します。
作業酪農場で7日間にわたって隣接する納屋エリアをカバーする3つの天井に取り付けられた視覚センサーで撮影されたデータセットは、90頭の牛の101,329枚の画像と、基礎となる元のCCTV映像で構成されています。
データセットには、完全なコンピュータービジョン認識ベースラインが提供されています。これは、牛のトラックレットで訓練された個々の牛の識別のための監視された自己監視学習フレームワークです。
データセットから96%を超える単一画像識別の精度を報告し、学習中に複数のカメラからのデータを組み合わせることで、自己教師の識別が強化されることを示しています。
私たちのフレームワークは、データ収集中のトラックレットの完全性の単純な検証のみを除いて、自動牛の識別を可能にすることを示します。
重要なことに、我々の研究は、マルチカメラ、監視済み、自己監視されたコンポーネントがタンデムで強調していることを強調しています。
この有効性の改善は、家畜管理、行動分析、農業監視に実際的な意味を持っていると主張しています。
再現性と実用的な使いやすさのために、https://tinyurl.com/multicamcows2024で入手可能な、このペーパーで再識別コンポーネントと種検出器を含むすべての主要なソフトウェアとコードを公開します。

要約(オリジナル)

We present MultiCamCows2024, a farm-scale image dataset filmed across multiple cameras for the biometric identification of individual Holstein-Friesian cattle exploiting their unique black and white coat-patterns. Captured by three ceiling-mounted visual sensors covering adjacent barn areas over seven days on a working dairy farm, the dataset comprises 101,329 images of 90 cows, plus underlying original CCTV footage. The dataset is provided with full computer vision recognition baselines, that is both a supervised and self-supervised learning framework for individual cow identification trained on cattle tracklets. We report a performance above 96% single image identification accuracy from the dataset and demonstrate that combining data from multiple cameras during learning enhances self-supervised identification. We show that our framework enables automatic cattle identification, barring only the simple human verification of tracklet integrity during data collection. Crucially, our study highlights that multi-camera, supervised and self-supervised components in tandem not only deliver highly accurate individual cow identification, but also achieve this efficiently with no labelling of cattle identities by humans. We argue that this improvement in efficacy has practical implications for livestock management, behaviour analysis, and agricultural monitoring. For reproducibility and practical ease of use, we publish all key software and code including re-identification components and the species detector with this paper, available at https://tinyurl.com/MultiCamCows2024.

arxiv情報

著者 Phoenix Yu,Tilo Burghardt,Andrew W Dowsey,Neill W Campbell
発行日 2025-06-13 15:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Holstein-Friesian Re-Identification using Multiple Cameras and Self-Supervision on a Working Farm はコメントを受け付けていません

3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes

要約

AutoreGressive(AR)モデルは、自然言語とイメージ生成で顕著な成功を収めていますが、3D形状モデリングへの適用はほとんど未踏のままです。
拡散モデルとは異なり、ARモデルは、より速い推論時間を備えたより効率的で制御可能な生成を可能にし、データ集約型ドメインに特に適しています。
ARアプローチを使用した従来の3D生成モデルは、多くの場合、ボクセルまたはポイントレベルで「次のトークン」予測に依存しています。
特定のアプリケーションには効果的ですが、これらの方法は、大規模な3Dデータを扱うときに制限的で計算上の高価になります。
これらの課題に取り組むために、無条件の形状生成を実行できる3D暗黙の距離フィールドのARモデルである3D-WAGを導入します。
私たちの重要なアイデアは、形状をマルチスケールのウェーブレットトークンマップとしてエンコードし、変圧器を使用して「次の高解像度トークンマップ」を自己回帰的に予測することです。
3D AR生成タスクを「次のスケール」予測として再定義することにより、従来の「次のトークン」予測モデルと比較して生成の計算コストを削減し、3D形状の本質的な幾何学的詳細をより構造化された階層的な方法で維持します。
3D-WAGを評価して、広く使用されているベンチマークの最先端の方法と定量的および定性的な比較により、その利点を紹介します。
私たちの結果は、3DワグがカバレッジやMMDなどの主要なメトリックで優れたパフォーマンスを達成し、実際のデータ分布に密接に一致する高忠実度の3D形状を生成することを示しています。

要約(オリジナル)

Autoregressive (AR) models have achieved remarkable success in natural language and image generation, but their application to 3D shape modeling remains largely unexplored. Unlike diffusion models, AR models enable more efficient and controllable generation with faster inference times, making them especially suitable for data-intensive domains. Traditional 3D generative models using AR approaches often rely on “next-token’ predictions at the voxel or point level. While effective for certain applications, these methods can be restrictive and computationally expensive when dealing with large-scale 3D data. To tackle these challenges, we introduce 3D-WAG, an AR model for 3D implicit distance fields that can perform unconditional shape generation, class-conditioned and also text-conditioned shape generation. Our key idea is to encode shapes as multi-scale wavelet token maps and use a Transformer to predict the “next higher-resolution token map’ in an autoregressive manner. By redefining 3D AR generation task as “next-scale’ prediction, we reduce the computational cost of generation compared to traditional “next-token’ prediction models, while preserving essential geometric details of 3D shapes in a more structured and hierarchical manner. We evaluate 3D-WAG to showcase its benefit by quantitative and qualitative comparisons with state-of-the-art methods on widely used benchmarks. Our results show 3D-WAG achieves superior performance in key metrics like Coverage and MMD, generating high-fidelity 3D shapes that closely match the real data distribution.

arxiv情報

著者 Tejaswini Medi,Arianna Rampini,Pradyumna Reddy,Pradeep Kumar Jayaraman,Margret Keuper
発行日 2025-06-13 15:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes はコメントを受け付けていません

O2Former:Direction-Aware and Multi-Scale Query Enhancement for SAR Ship Instance Segmentation

要約

合成開口レーダー(SAR)の船舶のインスタンスセグメンテーションは、海事監視、環境分析、国家安全保障などの用途にとって重要です。
SAR船の画像は、既存の方法で見落とされることが多く、最適ではないパフォーマンスにつながる、スケールの変動、オブジェクト密度、ファジーターゲット境界などの課題を提示します。
この作業では、SAR画像の構造特性を完全に活用することによりMask2Formerを拡張するカスタマーされたインスタンスセグメンテーションフレームワークであるO2Formerを提案します。
2つの重要なコンポーネントを紹介します。
1つ目は、最適化されたクエリジェネレーター(OQG)です。
これにより、浅い位置の手がかりと高レベルのセマンティック情報を共同でエンコードすることにより、マルチスケール機能の相互作用が可能になります。
これにより、クエリの品質と収束効率が向上します。
2番目のコンポーネントは、方向を認識している埋め込みモジュール(OAEM)です。
方向に触れた畳み込みと極性エンコーディングを通じて方向感度を高めます。
これは、SARシーンの不均一なターゲット向けの課題に効果的に対処します。
一緒に、これらのモジュールは、バックボーンからデコーダーへの正確な特徴のアライメントを促進し、微調整された構造の詳細をキャプチャするモデルの能力を強化します。
広範な実験は、O2Formerが最先端のインスタンスセグメンテーションベースラインを上回り、SAR船データセットに対するその有効性と一般化を検証することを示しています。

要約(オリジナル)

Instance segmentation of ships in synthetic aperture radar (SAR) imagery is critical for applications such as maritime monitoring, environmental analysis, and national security. SAR ship images present challenges including scale variation, object density, and fuzzy target boundary, which are often overlooked in existing methods, leading to suboptimal performance. In this work, we propose O2Former, a tailored instance segmentation framework that extends Mask2Former by fully leveraging the structural characteristics of SAR imagery. We introduce two key components. The first is the Optimized Query Generator(OQG). It enables multi-scale feature interaction by jointly encoding shallow positional cues and high-level semantic information. This improves query quality and convergence efficiency. The second component is the Orientation-Aware Embedding Module(OAEM). It enhances directional sensitivity through direction-aware convolution and polar-coordinate encoding. This effectively addresses the challenge of uneven target orientations in SAR scenes. Together, these modules facilitate precise feature alignment from backbone to decoder and strengthen the model’s capacity to capture fine-grained structural details. Extensive experiments demonstrate that O2Former outperforms state of the art instance segmentation baselines, validating its effectiveness and generalization on SAR ship datasets.

arxiv情報

著者 F. Gao,Y Li,X He,J Sun,J Wang
発行日 2025-06-13 16:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | O2Former:Direction-Aware and Multi-Scale Query Enhancement for SAR Ship Instance Segmentation はコメントを受け付けていません

Manipulating Feature Visualizations with Gradient Slingshots

要約

特徴視覚化(FV)は、特定の機能を最大限に活性化する入力パターンを合成するディープニューラルネットワーク(DNNS)によって学習された概念を解釈するための広く使用されている手法です。
その人気にもかかわらず、FVの説明の信頼性は限られた注目を集めています。
この論文では、モデルアーキテクチャを変更したり、パフォーマンスを大幅に分解せずにFVの操作を可能にする新しい方法であるグラデーションパチンコを紹介します。
特徴の活性化状況の分散領域に新しい軌跡を形作ることにより、事前に定義された視覚化に収束するために最適化プロセスを強制します。
いくつかのDNNアーキテクチャでアプローチを評価し、忠実なFVを任意のターゲットに置き換える能力を実証します。
これらの結果は、重大な脆弱性を明らかにします。FVのみに依存する監査人は、完全に製造された説明を受け入れる可能性があります。
このリスクを軽減するために、私たちは簡単な防御を提案し、その有効性を定量的に実証します。

要約(オリジナル)

Feature Visualization (FV) is a widely used technique for interpreting the concepts learned by Deep Neural Networks (DNNs), which synthesizes input patterns that maximally activate a given feature. Despite its popularity, the trustworthiness of FV explanations has received limited attention. In this paper, we introduce a novel method, Gradient Slingshots, that enables manipulation of FV without modifying the model architecture or significantly degrading its performance. By shaping new trajectories in the off-distribution regions of the activation landscape of a feature, we coerce the optimization process to converge in a predefined visualization. We evaluate our approach on several DNN architectures, demonstrating its ability to replace faithfuls FV with arbitrary targets. These results expose a critical vulnerability: auditors relying solely on FV may accept entirely fabricated explanations. To mitigate this risk, we propose a straightforward defense and quantitatively demonstrate its effectiveness.

arxiv情報

著者 Dilyara Bareeva,Marina M. -C. Höhne,Alexander Warnecke,Lukas Pirch,Klaus-Robert Müller,Konrad Rieck,Sebastian Lapuschkin,Kirill Bykov
発行日 2025-06-13 16:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Manipulating Feature Visualizations with Gradient Slingshots はコメントを受け付けていません