FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

要約

科学的な視覚化と文書を理解するには、キャプションが重要です。
科学者向けの既存のキャプション方法は、トレーニングのためにドキュメントから抽出されたフィギュアキャプションのペアに依存しています。その多くは、有用性、説明、視覚性、視覚的説明のようなメトリックに関して不足しています[15]。
高品質のフィギュアキャプションの生成を可能にするために、Figcaps-HFに、読者の好みに最適化されたキャプションを生成する際にドメインの専門家フィードバックを組み込むことができるフィギュアキャプション生成の新しいフレームワークを導入します。
私たちのフレームワークは、1)フィギュアキャプションペアの品質を評価するための自動方法で構成されています。2)読者の好みの生成的なフィギュアからキャプションモデルを最適化するための人間のフィードバック(RLHF)の新しい強化学習(RLHF)方法。
さまざまな種類のモデルにわたる標準的な微調整のパフォーマンスを改善することにより、単純な学習フレームワークの有効性を実証します。
特に、BLIPを基本モデルとして使用する場合、RLHFフレームワークは、ルージュ、ブルー、および流星でそれぞれ35.7%、16.9%、9%の平均ゲインを達成します。
最後に、この問題のRLHF技術のさらなる評価と開発を可能にするために、フィギュアキャプションペアに関する人間のフィードバックを含む大規模なベンチマークデータセットをリリースします。

要約(オリジナル)

Captions are crucial for understanding scientific visualizations and documents. Existing captioning methods for scientific figures rely on figure-caption pairs extracted from documents for training, many of which fall short with respect to metrics like helpfulness, explainability, and visual-descriptiveness [15] leading to generated captions being misaligned with reader preferences. To enable the generation of high-quality figure captions, we introduce FigCaps-HF a new framework for figure-caption generation that can incorporate domain expert feedback in generating captions optimized for reader preferences. Our framework comprises of 1) an automatic method for evaluating quality of figure-caption pairs, 2) a novel reinforcement learning with human feedback (RLHF) method to optimize a generative figure-to-caption model for reader preferences. We demonstrate the effectiveness of our simple learning framework by improving performance over standard fine-tuning across different types of models. In particular, when using BLIP as the base model, our RLHF framework achieves a mean gain of 35.7%, 16.9%, and 9% in ROUGE, BLEU, and Meteor, respectively. Finally, we release a large-scale benchmark dataset with human feedback on figure-caption pairs to enable further evaluation and development of RLHF techniques for this problem.

arxiv情報

著者 Ashish Singh,Ashutosh Singh,Prateek Agarwal,Zixuan Huang,Arpita Singh,Tong Yu,Sungchul Kim,Victor Bursztyn,Nesreen K. Ahmed,Puneet Mathur,Erik Learned-Miller,Franck Dernoncourt,Ryan A. Rossi
発行日 2025-06-17 16:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback はコメントを受け付けていません

Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models

要約

画像の地理ローカリゼーションの以前の方法は、通常、タスクを分類または検索のいずれかとして扱い、多くの場合、解釈可能性を欠くブラックボックスの決定に依存しています。
大規模なビジョン言語モデル(LVLMS)の台頭により、視覚的な手がかりに基づいた推論主導型タスクとして地理ローカリゼーションの再考が可能になりました。
ただし、2つの主要な課題が続いています。
データ側では、既存の推論に焦点を当てたデータセットは主にStreet-View画像に基づいており、シーンの多様性と制約のある視点を提供します。
モデリング側では、現在のアプローチは主に監視された微調整に依存しており、これは推論能力のわずかな改善のみをもたらします。
これらの課題に対処するために、多様なソーシャルメディア画像を使用して、推論指向の地理ローカリゼーションデータセットMP16-Reasonを構築する新しいパイプラインを提案します。
Globe、locatability Assessmentのためのグループ相関ポリシーの最適化と最適化された視覚的なクルーの推論を紹介し、認識と推論でVLMの双目的の地理拡張をもたらします。
Globeには、位置性の評価、視覚的な手がかりの推論、および地理配分の精度を共同で強化するタスク固有の報酬が組み込まれています。
定性的および定量的な結果の両方が、グローブが地理的局在化タスク、特に多様な視覚的なシーンで最先端のオープンソースLVLMを上回ると同時に、より洞察に富んだ解釈可能な推論軌道を生成することを示しています。

要約(オリジナル)

Previous methods for image geo-localization have typically treated the task as either classification or retrieval, often relying on black-box decisions that lack interpretability. The rise of large vision-language models (LVLMs) has enabled a rethinking of geo-localization as a reasoning-driven task grounded in visual cues. However, two major challenges persist. On the data side, existing reasoning-focused datasets are primarily based on street-view imagery, offering limited scene diversity and constrained viewpoints. On the modeling side, current approaches predominantly rely on supervised fine-tuning, which yields only marginal improvements in reasoning capabilities. To address these challenges, we propose a novel pipeline that constructs a reasoning-oriented geo-localization dataset, MP16-Reason, using diverse social media images. We introduce GLOBE, Group-relative policy optimization for Locatability assessment and Optimized visual-clue reasoning, yielding Bi-objective geo-Enhancement for the VLM in recognition and reasoning. GLOBE incorporates task-specific rewards that jointly enhance locatability assessment, visual clue reasoning, and geolocation accuracy. Both qualitative and quantitative results demonstrate that GLOBE outperforms state-of-the-art open-source LVLMs on geo-localization tasks, particularly in diverse visual scenes, while also generating more insightful and interpretable reasoning trajectories.

arxiv情報

著者 Ling Li,Yao Zhou,Yuxuan Liang,Fugee Tsung,Jiaheng Wei
発行日 2025-06-17 16:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models はコメントを受け付けていません

ProbRadarM3F: mmWave Radar based Human Skeletal Pose Estimation with Probability Map Guided Multi-Format Feature Fusion

要約

ミリ波(mmwave)レーダーは、非侵入的なプライバシーであり、比較的便利で安価なデバイスであり、人間の屋内ポーズ推定タスクのRGBカメラの代わりに適用できることが実証されています。
ただし、MMWaveレーダーは、ターゲットからの反射信号の収集に依存しており、情報を含むレーダー信号を完全に適用することは困難です。
これは、ポーズ推定精度の改善に対する長年の障害でした。
この主要な課題に対処するために、このペーパーでは、確率マップガイド付きマルチフォーマット機能融合モデルであるProBradarm3Fを紹介します。
これは、従来のFFTメソッドを使用して、確率MAPベースの位置エンコーディング方法と並行して使用した新しいレーダー機能抽出フレームワークです。
ProBradarm3Fは、従来のヒートマップ機能と位置機能を融合し、14のキーポイントの推定を効果的に達成します。
HUPRデータセットでの実験的評価は、このペーパーで提案されているモデルの有効性を証明し、APで69.9%でこのデータセットで実験された他の方法を上回ります。
私たちの研究の重点は、レーダーシンガルで以前に悪用されなかった位置情報に焦点を当てています。
これにより、MMWaveレーダーからの他の潜在的な非冗長情報を調査するための方向性が提供されます。

要約(オリジナル)

Millimeter wave (mmWave) radar is a non-intrusive privacy and relatively convenient and inexpensive device, which has been demonstrated to be applicable in place of RGB cameras in human indoor pose estimation tasks. However, mmWave radar relies on the collection of reflected signals from the target, and the radar signals containing information is difficult to be fully applied. This has been a long-standing hindrance to the improvement of pose estimation accuracy. To address this major challenge, this paper introduces a probability map guided multi-format feature fusion model, ProbRadarM3F. This is a novel radar feature extraction framework using a traditional FFT method in parallel with a probability map based positional encoding method. ProbRadarM3F fuses the traditional heatmap features and the positional features, then effectively achieves the estimation of 14 keypoints of the human body. Experimental evaluation on the HuPR dataset proves the effectiveness of the model proposed in this paper, outperforming other methods experimented on this dataset with an AP of 69.9 %. The emphasis of our study is focusing on the position information that is not exploited before in radar singal. This provides direction to investigate other potential non-redundant information from mmWave rader.

arxiv情報

著者 Bing Zhu,Zixin He,Weiyi Xiong,Guanhua Ding,Tao Huang,Wei Chen,Wei Xiang
発行日 2025-06-17 16:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ProbRadarM3F: mmWave Radar based Human Skeletal Pose Estimation with Probability Map Guided Multi-Format Feature Fusion はコメントを受け付けていません

FocalClick-XL: Towards Unified and High-quality Interactive Segmentation

要約

インタラクティブセグメンテーションにより、ユーザーは、クリック、落書き、ボックスなどの単純なインタラクションを通じて、ターゲットオブジェクトのバイナリマスクを抽出できます。
ただし、既存の方法は、限られた相互作用フォームのみをサポートし、細かい詳細をキャプチャするのに苦労していることがよくあります。
このホワイトペーパーでは、フォーカリックの古典的な粗い粗い設計を再訪し、重要な拡張機能を導入します。
マルチステージ戦略に触発されて、これらの課題に同時に対処するために、新しいパイプラインFocalclick-XLを提案します。
大規模な事前トレーニングの新たな傾向に続いて、インタラクティブなセグメンテーションを、コンテキスト、オブジェクト、および詳細などのさまざまなレベルの情報をキャプチャするメタタスクに分解します。各レベルに専用のサブネットを割り当てます。この分解により、各サブネットは独立したデータを使用してスケーリングされた事前測定を受け、効果を最大化できます。
柔軟性を向上させるために、特定のインタラクションタイプをエンコードするためにオブジェクトレベルでプロンプトレイヤーを導入しながら、さまざまなインタラクションフォームにわたってコンテキストレベルと詳細レベルの情報を共通の知識として共有します。
その結果、FocalClick-XLは、クリックベースのベンチマークで最先端のパフォーマンスを実現し、ボックス、落書き、粗いマスクなど、多様な相互作用形式に対する顕著な適応性を示しています。
バイナリマスク生成を超えて、細粒の詳細を備えたアルファマットを予測することもでき、インタラクティブなセグメンテーションのための多用途で強力なツールになります。

要約(オリジナル)

Interactive segmentation enables users to extract binary masks of target objects through simple interactions such as clicks, scribbles, and boxes. However, existing methods often support only limited interaction forms and struggle to capture fine details. In this paper, we revisit the classical coarse-to-fine design of FocalClick and introduce significant extensions. Inspired by its multi-stage strategy, we propose a novel pipeline, FocalClick-XL, to address these challenges simultaneously. Following the emerging trend of large-scale pretraining, we decompose interactive segmentation into meta-tasks that capture different levels of information — context, object, and detail — assigning a dedicated subnet to each level.This decomposition allows each subnet to undergo scaled pretraining with independent data and supervision, maximizing its effectiveness. To enhance flexibility, we share context- and detail-level information across different interaction forms as common knowledge while introducing a prompting layer at the object level to encode specific interaction types. As a result, FocalClick-XL achieves state-of-the-art performance on click-based benchmarks and demonstrates remarkable adaptability to diverse interaction formats, including boxes, scribbles, and coarse masks. Beyond binary mask generation, it is also capable of predicting alpha mattes with fine-grained details, making it a versatile and powerful tool for interactive segmentation.

arxiv情報

著者 Xi Chen,Hengshuang Zhao
発行日 2025-06-17 16:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FocalClick-XL: Towards Unified and High-quality Interactive Segmentation はコメントを受け付けていません

Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models

要約

GPT-4などの大規模な言語モデル(LLM)は、複数のドメインにまたがる膨大な量のデータセットで訓練されており、さまざまなタスクで重要な推論、理解、および計画機能を示しています。
この研究では、既存の研究で特に露出していない領域であるロボティクスのビジョンと言語ナビゲーション(VLN)ドメイン内のアラビア語統合における初めての作業を提示します。
アラビア語中心のLLM、JAISと並んで、GPT-4O MINI、LLAMA 3 8B、PHI-3 Medium 14Bを含む最先端の多言語モデル(SLM)の包括的な評価を実行します。
当社のアプローチは、純粋なLLMベースの指導に従うナビゲーションエージェントであるNAVGPTフレームワークを利用して、R2Rデータセットを使用したゼロショットシーケンシャルアクション予測を介したナビゲーション推論に対する言語の影響を評価します。
包括的な実験を通じて、私たちのフレームワークは、英語とアラビア語の両方の指示が提供された場合、ナビゲーションタスクの高レベルの計画が可能であることを実証します。
ただし、特定のモデルは、能力に固有の制限、最適なパフォーマンス、解析の問題のために、アラビア語の推論と計画に苦労しました。
これらの調査結果は、効果的なナビゲーションのための言語モデルの計画と推論能力を強化することの重要性を強調し、これをさらなる開発の重要な領域として強調しながら、インパクトのある現実世界アプリケーションのアラビア語モデルの可能性を解き放ちます。

要約(オリジナル)

Large Language Models (LLMs) such as GPT-4, trained on huge amount of datasets spanning multiple domains, exhibit significant reasoning, understanding, and planning capabilities across various tasks. This study presents the first-ever work in Arabic language integration within the Vision-and-Language Navigation (VLN) domain in robotics, an area that has been notably underexplored in existing research. We perform a comprehensive evaluation of state-of-the-art multi-lingual Small Language Models (SLMs), including GPT-4o mini, Llama 3 8B, and Phi-3 medium 14B, alongside the Arabic-centric LLM, Jais. Our approach utilizes the NavGPT framework, a pure LLM-based instruction-following navigation agent, to assess the impact of language on navigation reasoning through zero-shot sequential action prediction using the R2R dataset. Through comprehensive experiments, we demonstrate that our framework is capable of high-level planning for navigation tasks when provided with instructions in both English and Arabic. However, certain models struggled with reasoning and planning in the Arabic language due to inherent limitations in their capabilities, sub-optimal performance, and parsing issues. These findings highlight the importance of enhancing planning and reasoning capabilities in language models for effective navigation, emphasizing this as a key area for further development while also unlocking the potential of Arabic-language models for impactful real-world applications.

arxiv情報

著者 Malak Mansour,Ahmed Aly,Bahey Tharwat,Sarim Hashmi,Dong An,Ian Reid
発行日 2025-06-17 16:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models はコメントを受け付けていません

YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework

要約

複数のバンドからの情報を統合するマルチスペクトルオブジェクトの検出は、検出の精度と環境適応性を高め、さまざまな分野にわたって優れたアプリケーションの可能性を保持できます。
既存の方法では、クロスモーダルの相互作用、低光条件、モデルの軽量が進歩していますが、統一された単一ステージフレームワークの欠如、パフォーマンスと融合戦略のバランスの困難、不合理なモダリティ重量割り当てなどの課題がまだあります。
Yolov11フレームワークに基づいてこれらに対処するために、新しい包括的なマルチモーダルオブジェクト検出フレームワークであるYolov11-RGBTを提示します。
6つのマルチスペクトル融合モードを設計し、Yolov3からYolov12およびRT-Detrへのモデルに正常に適用しました。
2つのモダリティの重要性を再評価した後、マルチスペクトルモデルのP3ミッドフュージョン戦略とマルチスペクトル制御可能な微調整(MCF)戦略を提案しました。
これらの改善により、特徴の融合が最適化され、冗長性と不一致を減らし、全体的なモデルのパフォーマンスを向上させます。
実験では、LLVIPやFLIRなどの3つの主要なオープンソースマルチスペクトルオブジェクト検出データセットに優れていることが示されています。
特に、マルチスペクトル制御可能な微調整戦略により、モデルの適応性と堅牢性が大幅に向上しました。
FLIRデータセットでは、Yolov11モデルのマップが3.41%-5.65%で一貫して改善され、最大47.61%に達し、フレームワークと戦略の有効性が検証されました。
このコードは、https://github.com/wandahangfy/yolov11-rgbtで入手できます。

要約(オリジナル)

Multispectral object detection, which integrates information from multiple bands, can enhance detection accuracy and environmental adaptability, holding great application potential across various fields. Although existing methods have made progress in cross-modal interaction, low-light conditions, and model lightweight, there are still challenges like the lack of a unified single-stage framework, difficulty in balancing performance and fusion strategy, and unreasonable modality weight allocation. To address these, based on the YOLOv11 framework, we present YOLOv11-RGBT, a new comprehensive multimodal object detection framework. We designed six multispectral fusion modes and successfully applied them to models from YOLOv3 to YOLOv12 and RT-DETR. After reevaluating the importance of the two modalities, we proposed a P3 mid-fusion strategy and multispectral controllable fine-tuning (MCF) strategy for multispectral models. These improvements optimize feature fusion, reduce redundancy and mismatches, and boost overall model performance. Experiments show our framework excels on three major open-source multispectral object detection datasets, like LLVIP and FLIR. Particularly, the multispectral controllable fine-tuning strategy significantly enhanced model adaptability and robustness. On the FLIR dataset, it consistently improved YOLOv11 models’ mAP by 3.41%-5.65%, reaching a maximum of 47.61%, verifying the framework and strategies’ effectiveness. The code is available at: https://github.com/wandahangFY/YOLOv11-RGBT.

arxiv情報

著者 Dahang Wan,Rongsheng Lu,Yang Fang,Xianli Lang,Shuangbao Shu,Jingjing Chen,Siyuan Shen,Ting Xu,Zecong Ye
発行日 2025-06-17 16:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework はコメントを受け付けていません

Towards Desiderata-Driven Design of Visual Counterfactual Explainers

要約

視覚反事実的説明者(VCE)は、画像分類子の透明性を高めるための簡単で有望なアプローチです。
VCESは、機械学習モデルが最も強く応答する特定のデータ変換を明らかにすることにより、機能の帰属などの他のタイプの説明を補完します。
この論文では、既存のVCESがサンプルの品質の最適化や最小限の変化に焦点を絞りすぎると主張しています。
彼らは、忠実さ、理解性、十分性など、説明のために、より全体的なデシデラタを考慮していません。
この欠点に対処するために、反事実的な生成のための新しいメカニズムを探求し、これらのデシデラタの実現にどのように役立つかを調査します。
これらのメカニズムを、新しい「スムーズな反事実的エクスプローラー」(SCE)アルゴリズムに組み合わせて、合成および実際のデータに関する体系的な評価を通じてその有効性を実証します。

要約(オリジナル)

Visual counterfactual explainers (VCEs) are a straightforward and promising approach to enhancing the transparency of image classifiers. VCEs complement other types of explanations, such as feature attribution, by revealing the specific data transformations to which a machine learning model responds most strongly. In this paper, we argue that existing VCEs focus too narrowly on optimizing sample quality or change minimality; they fail to consider the more holistic desiderata for an explanation, such as fidelity, understandability, and sufficiency. To address this shortcoming, we explore new mechanisms for counterfactual generation and investigate how they can help fulfill these desiderata. We combine these mechanisms into a novel ‘smooth counterfactual explorer’ (SCE) algorithm and demonstrate its effectiveness through systematic evaluations on synthetic and real data.

arxiv情報

著者 Sidney Bender,Jan Herrmann,Klaus-Robert Müller,Grégoire Montavon
発行日 2025-06-17 16:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards Desiderata-Driven Design of Visual Counterfactual Explainers はコメントを受け付けていません

Iterative Camera-LiDAR Extrinsic Optimization via Surrogate Diffusion

要約

カメラとライダーは、自動運転車に不可欠なセンサーです。
カメラとライダーデータの融合は、個々のセンサーの制限に対処しますが、正確な外因性キャリブレーションに依存しています。
最近、多数のエンドツーエンドのキャリブレーション方法が提案されています。
ただし、ほとんどは単一のステップで外因性パラメーターを予測し、反復的な最適化機能を欠いています。
より高い精度のための需要の増加に対処するために、代理拡散に基づいた多用途の反復フレームワークを提案します。
このフレームワークは、アーキテクチャの変更を必要とせずに、任意のキャリブレーション方法のパフォーマンスを向上させることができます。
具体的には、初期の外因性パラメーターは、除去プロセスを通じて反復的な改良を受けます。このプロセスでは、元のキャリブレーション方法は、各ステップで最終的な外交を推定する代理除去者として機能します。
比較分析のために、4つの最先端のキャリブレーション方法を代理除去者として選択し、拡散プロセスの結果を他の2つの反復アプローチの結果と比較しました。
広範な実験は、拡散モデルと統合された場合、すべてのキャリブレーション方法が、他の反復技術とそのシングルステップの対応物と比較して、より高い精度、堅牢性の向上、およびより大きな安定性を達成することを示しています。

要約(オリジナル)

Cameras and LiDAR are essential sensors for autonomous vehicles. The fusion of camera and LiDAR data addresses the limitations of individual sensors but relies on precise extrinsic calibration. Recently, numerous end-to-end calibration methods have been proposed; however, most predict extrinsic parameters in a single step and lack iterative optimization capabilities. To address the increasing demand for higher accuracy, we propose a versatile iterative framework based on surrogate diffusion. This framework can enhance the performance of any calibration method without requiring architectural modifications. Specifically, the initial extrinsic parameters undergo iterative refinement through a denoising process, in which the original calibration method serves as a surrogate denoiser to estimate the final extrinsics at each step. For comparative analysis, we selected four state-of-the-art calibration methods as surrogate denoisers and compared the results of our diffusion process with those of two other iterative approaches. Extensive experiments demonstrate that when integrated with our diffusion model, all calibration methods achieve higher accuracy, improved robustness, and greater stability compared to other iterative techniques and their single-step counterparts.

arxiv情報

著者 Ni Ou,Zhuo Chen,Xinru Zhang,Junzheng Wang
発行日 2025-06-17 16:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Iterative Camera-LiDAR Extrinsic Optimization via Surrogate Diffusion はコメントを受け付けていません

DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning

要約

深さの推定は、インテリジェントなシステムにとって重要であり、自律的なナビゲーションから拡張現実へのアプリケーションを可能にします。
従来のステレオおよびアクティブ深度センサーにはコスト、パワー、堅牢性が制限されていますが、最新のカメラでユビキタスなデュアルピクセル(DP)テクノロジーは、魅力的な代替品を提供します。
このペーパーでは、Disentangled RGBおよびDPベースの深度推定のための新しいモダリティ分離ネットワーク設計である拡散ネットを紹介します。
difuse-netは、小さな開口部を備えたスマートフォンカメラに固有の微妙なDP格差の手がかりをキャプチャするために特別に設計されたウィンドウ双方向視差注意メカニズム(WBIPAM)を備えています。
個別のエンコーダーは、RGB画像からコンテキスト情報を抽出し、これらの機能は深さ予測を強化するために融合します。
また、大規模なRGB-DP-Dデータセットの取得の制限に対処するために、文献で大規模なRGB-Dデータセットを利用するためのクロスモーダル転送学習(CMTL)メカニズムを提案します。
提案された方法の評価と比較は、DPおよびステレオベースのベースライン方法に対するその優位性を示しています。
さらに、新しい対称ステレオカメラハードウェアセットアップ、ステレオキャリブレーション、是正プロトコル、およびAIステレオ不一致の推定方法を使用して作成されたデュアルカメラデュアルピクセル(DCDP)データセットという名前の新しい、高品質の実世界のRGB-DP-Dトレーニングデータセットを提供します。

要約(オリジナル)

Depth estimation is crucial for intelligent systems, enabling applications from autonomous navigation to augmented reality. While traditional stereo and active depth sensors have limitations in cost, power, and robustness, dual-pixel (DP) technology, ubiquitous in modern cameras, offers a compelling alternative. This paper introduces DiFuse-Net, a novel modality decoupled network design for disentangled RGB and DP based depth estimation. DiFuse-Net features a window bi-directional parallax attention mechanism (WBiPAM) specifically designed to capture the subtle DP disparity cues unique to smartphone cameras with small aperture. A separate encoder extracts contextual information from the RGB image, and these features are fused to enhance depth prediction. We also propose a Cross-modal Transfer Learning (CmTL) mechanism to utilize large-scale RGB-D datasets in the literature to cope with the limitations of obtaining large-scale RGB-DP-D dataset. Our evaluation and comparison of the proposed method demonstrates its superiority over the DP and stereo-based baseline methods. Additionally, we contribute a new, high-quality, real-world RGB-DP-D training dataset, named Dual-Camera Dual-Pixel (DCDP) dataset, created using our novel symmetric stereo camera hardware setup, stereo calibration and rectification protocol, and AI stereo disparity estimation method.

arxiv情報

著者 Kunal Swami,Debtanu Gupta,Amrit Kumar Muduli,Chirag Jaiswal,Pankaj Kumar Bajpai
発行日 2025-06-17 16:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning はコメントを受け付けていません

Plug-and-Play with 2.5D Artifact Reduction Prior for Fast and Accurate Industrial Computed Tomography Reconstruction

要約

コーンビームX線コンピューター断層撮影(XCT)は、医療から産業イメージングまでのアプリケーションを使用して、内部構造の3D再構成を生成するための不可欠なイメージング技術です。
高品質の再構成を生成するには、通常、多くのX線測定が必要です。
このプロセスは、特に密集した材料の場合、ゆっくりと高価な場合があります。
プラグアンドプレイ(PNP)再構築フレームワークにアーティファクト削減前の削減が組み込まれている最近の作業は、スパースビューXCTスキャンからの画質を改善しながら、深い学習ベースのソリューションの一般化を強化することで有望な結果を示しています。
ただし、この方法では、アーティファクト削減のために2D畳み込みニューラルネットワーク(CNN)を使用して、3D再構成からスライスに依存しない情報のみをキャプチャし、パフォーマンスを制限します。
この論文では、2.5Dアーティファクト削減CNNを前のPNP再構成方法を提案します。
このアプローチは、隣接するスライスからスライス間情報を活用し、計算上効率を残しながらより豊かな空間コンテキストをキャプチャします。
この2.5Dの事前は、再構成の品質を改善するだけでなく、モデルが一般的に発生するXCTアーティファクト(ビーム硬化など)を直接抑制し、アーティファクト補正の前処理の必要性を排除できることを示します。
実験的および合成コーンビームXCTデータの両方での実験は、提案された方法が細孔サイズや形状などの細かい構造の詳細をよりよく保持し、2Dプライアーと比較してより正確な欠陥検出につながることを示しています。
特に、シミュレートされたスキャンで完全にトレーニングされた2.5Dアーティファクト削減を使用して、実験的XCTデータの強力なパフォーマンスを示し、ドメイン間で一般化する提案された方法の能力を強調します。

要約(オリジナル)

Cone-beam X-ray computed tomography (XCT) is an essential imaging technique for generating 3D reconstructions of internal structures, with applications ranging from medical to industrial imaging. Producing high-quality reconstructions typically requires many X-ray measurements; this process can be slow and expensive, especially for dense materials. Recent work incorporating artifact reduction priors within a plug-and-play (PnP) reconstruction framework has shown promising results in improving image quality from sparse-view XCT scans while enhancing the generalizability of deep learning-based solutions. However, this method uses a 2D convolutional neural network (CNN) for artifact reduction, which captures only slice-independent information from the 3D reconstruction, limiting performance. In this paper, we propose a PnP reconstruction method that uses a 2.5D artifact reduction CNN as the prior. This approach leverages inter-slice information from adjacent slices, capturing richer spatial context while remaining computationally efficient. We show that this 2.5D prior not only improves the quality of reconstructions but also enables the model to directly suppress commonly occurring XCT artifacts (such as beam hardening), eliminating the need for artifact correction pre-processing. Experiments on both experimental and synthetic cone-beam XCT data demonstrate that the proposed method better preserves fine structural details, such as pore size and shape, leading to more accurate defect detection compared to 2D priors. In particular, we demonstrate strong performance on experimental XCT data using a 2.5D artifact reduction prior trained entirely on simulated scans, highlighting the proposed method’s ability to generalize across domains.

arxiv情報

著者 Haley Duba-Sullivan,Aniket Pramanik,Venkatakrishnan Singanallur,Amirkoushyar Ziabari
発行日 2025-06-17 16:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Plug-and-Play with 2.5D Artifact Reduction Prior for Fast and Accurate Industrial Computed Tomography Reconstruction はコメントを受け付けていません