COCO-Inpaint: A Benchmark for Image Inpainting Detection and Manipulation Localization

要約

画像操作における最近の進歩は、フォトリアリスティックコンテンツの生成において前例のない進歩を達成しましたが、同時にarbitrary意的な操作と編集の障壁を排除し、マルチメディアの信頼性とサイバーセキュリティに関する懸念を高めています。
ただし、既存の画像操作の検出とローカリゼーション(IMDL)方法論は、主にスプライシングまたはコピー移動の偽造に焦点を当てており、入力ベースの操作のための専用のベンチマークがありません。
このギャップを埋めるために、3つの重要な貢献を備えたインテンシング検出のために特別に設計された包括的なベンチマークであるココインペイントを提示します。
セマンティックの多様性。
当社のベンチマークは、オブジェクトシェイプなどの表面的なセマンティックアーティファクトではなく、塗装された地域と本物の領域間の本質的な矛盾を強調するために構築されています。
既存のIMDLアプローチを評価するために、3つの標準メトリックを使用して厳密な評価プロトコルを確立します。
データセットは、この分野での将来の研究を促進するために公開されます。

要約(オリジナル)

Recent advancements in image manipulation have achieved unprecedented progress in generating photorealistic content, but also simultaneously eliminating barriers to arbitrary manipulation and editing, raising concerns about multimedia authenticity and cybersecurity. However, existing Image Manipulation Detection and Localization (IMDL) methodologies predominantly focus on splicing or copy-move forgeries, lacking dedicated benchmarks for inpainting-based manipulations. To bridge this gap, we present COCOInpaint, a comprehensive benchmark specifically designed for inpainting detection, with three key contributions: 1) High-quality inpainting samples generated by six state-of-the-art inpainting models, 2) Diverse generation scenarios enabled by four mask generation strategies with optional text guidance, and 3) Large-scale coverage with 258,266 inpainted images with rich semantic diversity. Our benchmark is constructed to emphasize intrinsic inconsistencies between inpainted and authentic regions, rather than superficial semantic artifacts such as object shapes. We establish a rigorous evaluation protocol using three standard metrics to assess existing IMDL approaches. The dataset will be made publicly available to facilitate future research in this area.

arxiv情報

著者 Haozhen Yan,Yan Hong,Jiahui Zhan,Yikun Ji,Jun Lan,Huijia Zhu,Weiqiang Wang,Jianfu Zhang
発行日 2025-04-25 14:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | COCO-Inpaint: A Benchmark for Image Inpainting Detection and Manipulation Localization はコメントを受け付けていません

L4P: Low-Level 4D Vision Perception Unified

要約

ビデオのピクセル間の時空間的関係は、低レベルの4D認識タスクの重要な情報をもたらします。
それについて推論する単一のモデルは、そのようないくつかのタスクをうまく解決できるはずです。
しかし、ほとんどの最先端の方法は、手元のタスクに特化したアーキテクチャに依存しています。
統一されたフレームワークで低レベルの4D認識タスクを解決するフィードフォワードの汎用アーキテクチャであるL4Pを提示します。
L4Pは、事前に訓練されたVITベースのビデオエンコーダーを活用し、軽量であるため、大規模なトレーニングを必要としないタスクあたりのヘッドと組み合わせます。
一般的かつフィードフォワードの定式化にもかかわらず、私たちの方法は、深さや光の流れの推定など、2D/3D追跡などのスパースタスクなど、両方の密なタスクで既存の特殊な方法のパフォーマンスと一致または上回ります。
さらに、シングルタスクメソッドのタスクに匹敵する時間に一度にすべてのタスクを解決します。

要約(オリジナル)

The spatio-temporal relationship between the pixels of a video carries critical information for low-level 4D perception tasks. A single model that reasons about it should be able to solve several such tasks well. Yet, most state-of-the-art methods rely on architectures specialized for the task at hand. We present L4P, a feedforward, general-purpose architecture that solves low-level 4D perception tasks in a unified framework. L4P leverages a pre-trained ViT-based video encoder and combines it with per-task heads that are lightweight and therefore do not require extensive training. Despite its general and feedforward formulation, our method matches or surpasses the performance of existing specialized methods on both dense tasks, such as depth or optical flow estimation, and sparse tasks, such as 2D/3D tracking. Moreover, it solves all tasks at once in a time comparable to that of single-task methods.

arxiv情報

著者 Abhishek Badki,Hang Su,Bowen Wen,Orazio Gallo
発行日 2025-04-25 14:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | L4P: Low-Level 4D Vision Perception Unified はコメントを受け付けていません

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

要約

チェーンオブサブ(COT)の推論により、マルチモーダル大手言語モデル(MLLM)の解釈可能性と問題解決能力が大幅に向上します。
ただし、既存のアプローチはテキストベッドに焦点を当てており、視覚的な手がかりを活用する能力を制限しています。
視覚的なCOTは未定であり、唯一の作業は、広範なラベル付けされた境界ボックスデータに依存しており、目に見えないケースに一般化するのが難しい、監視された微調整(SFT)に基づいています。
このペーパーでは、優先最適化による画像レベルのCOT推論の新しいフレームワークである監視されていないVisual Cot(UV-COT)を紹介します。
UV-COTは、モデル生成の境界ボックス間の好みの比較を実行し(1つが推奨され、もう1つは拒否されます)。
自動データ生成パイプラインを導入することにより、このような選好データを取得します。
画像が与えられた場合、ターゲットMLLM(例:LLAVA-1.5-7B)は、テンプレートプロンプトを使用してシード境界ボックスを生成し、入力として各境界領域を使用して質問に答えます。
評価者MLLM(例:Omnillm-12B)は回答をランク付けし、これらのランキングは、負の対数尤度損失を最小化することにより、UV-COTでターゲットMLLMを訓練するための監督として機能します。
主要な領域を識別し、それらに基づいた推論を識別することにより、UV-COTは、特にテキストの説明だけが不足している空間的推論タスクで視覚的理解を改善できます。
6つのデータセットでの実験は、最先端のテキストおよび視覚的なCOT方法と比較して、UV-COTの優位性を示しています。
4つの目に見えないデータセットでのゼロショットテストは、UV-COTの強力な一般化を示しています。
このコードは、https://github.com/kesenzhao/uv-cotで入手できます。

要約(オリジナル)

Chain-of-thought (CoT) reasoning greatly improves the interpretability and problem-solving abilities of multimodal large language models (MLLMs). However, existing approaches are focused on text CoT, limiting their ability to leverage visual cues. Visual CoT remains underexplored, and the only work is based on supervised fine-tuning (SFT) that relies on extensive labeled bounding-box data and is hard to generalize to unseen cases. In this paper, we introduce Unsupervised Visual CoT (UV-CoT), a novel framework for image-level CoT reasoning via preference optimization. UV-CoT performs preference comparisons between model-generated bounding boxes (one is preferred and the other is dis-preferred), eliminating the need for bounding-box annotations. We get such preference data by introducing an automatic data generation pipeline. Given an image, our target MLLM (e.g., LLaVA-1.5-7B) generates seed bounding boxes using a template prompt and then answers the question using each bounded region as input. An evaluator MLLM (e.g., OmniLLM-12B) ranks the responses, and these rankings serve as supervision to train the target MLLM with UV-CoT by minimizing negative log-likelihood losses. By emulating human perception–identifying key regions and reasoning based on them–UV-CoT can improve visual comprehension, particularly in spatial reasoning tasks where textual descriptions alone fall short. Our experiments on six datasets demonstrate the superiority of UV-CoT, compared to the state-of-the-art textual and visual CoT methods. Our zero-shot testing on four unseen datasets shows the strong generalization of UV-CoT. The code is available in https://github.com/kesenzhao/UV-CoT.

arxiv情報

著者 Kesen Zhao,Beier Zhu,Qianru Sun,Hanwang Zhang
発行日 2025-04-25 14:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization はコメントを受け付けていません

Partition Map-Based Fast Block Partitioning for VVC Inter Coding

要約

多用途のビデオコーディング(VVC)の新しい手法の中で、ネストされたマルチタイプツリー(QT+MTT)ブロック構造を備えたクアッドツリーは、より柔軟なブロックパーティションパターンを提供することにより、かなりのコーディングゲインをもたらします。
ただし、VVCエンコーダーの再帰パーティション検索により、エンコーダーの複雑さが大幅に向上します。
この問題に対処するために、パーティションマップベースのアルゴリズムを提案して、インターコードで高速ブロックパーティションを追求します。
コーディング内のパーティションマップベースの方法に関する以前の作業に基づいて、VVCインターコードの特性を分析し、早期終了のためにMTTマスクを組み込むことでパーティションマップを改善します。
次に、空間的特徴と時間的機能の両方を使用してパーティションマップを予測するニューラルネットワークを開発します。
積み重ねられたトップダウンおよびボトムアップ処理、量子化パラメーター変調層、パーティション化適応ワーピングなど、いくつかの特別なデザインで構成されています。
さらに、複雑さの削減とレート延長(RD)パフォーマンスの損失との間に微調整されたトレードオフを達成するために、二重の授業決定スキームを提示します。
実験結果は、提案された方法が、ランダムアクセス構成の下で2.12%のBjontegaard Deltaビットレート(BDBR)で平均51.30%のエンコード時間を達成することを示しています。

要約(オリジナル)

Among the new techniques of Versatile Video Coding (VVC), the quadtree with nested multi-type tree (QT+MTT) block structure yields significant coding gains by providing more flexible block partitioning patterns. However, the recursive partition search in the VVC encoder increases the encoder complexity substantially. To address this issue, we propose a partition map-based algorithm to pursue fast block partitioning in inter coding. Based on our previous work on partition map-based methods for intra coding, we analyze the characteristics of VVC inter coding, and thus improve the partition map by incorporating an MTT mask for early termination. Next, we develop a neural network that uses both spatial and temporal features to predict the partition map. It consists of several special designs including stacked top-down and bottom-up processing, quantization parameter modulation layers, and partitioning-adaptive warping. Furthermore, we present a dual-threshold decision scheme to achieve a fine-grained trade-off between complexity reduction and rate-distortion (RD) performance loss. The experimental results demonstrate that the proposed method achieves an average 51.30% encoding time saving with a 2.12% Bjontegaard Delta Bit Rate (BDBR) under the random access configuration.

arxiv情報

著者 Xinmin Feng,Zhuoyuan Li,Li Li,Dong Liu,Feng Wu
発行日 2025-04-25 14:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Partition Map-Based Fast Block Partitioning for VVC Inter Coding はコメントを受け付けていません

A Multimodal Deep Learning Approach for White Matter Shape Prediction in Diffusion MRI Tractography

要約

形状の測定は、白質トラクトグラフィーの有望な記述子として浮上しており、認知的および臨床表現型との解剖学的変動性と関連性に関する補完的な洞察を提供しています。
ただし、形状測定を計算するための従来の方法は、ボクセルベースの表現に依存しているため、大規模なデータセットでは計算的に高価であり、時間がかかります。
Tract2shapeを提案します。これは、幾何学(ポイントクラウド)とスカラー(表の)機能を活用して、10の白質トラクトグラフィー形状測定を予測する新しいマルチモーダルディープラーニングフレームワークを提案します。
モデルの効率を高めるために、モデルの次元削減アルゴリズムを利用して、5つの主要な形状コンポーネントを予測します。
モデルは、2つの独立して取得したデータセット、HCP-YAデータセット、およびPPMIデータセットでトレーニングおよび評価されます。
HCP-YAデータセットでトレーニングおよびテストし、結果を最先端のモデルと比較することにより、Tract2shapeのパフォーマンスを評価します。
その堅牢性と一般化能力をさらに評価するために、目に見えないPPMIデータセットでTract2shapeもテストします。
TRACT2SHAPEは、10の形状すべての測定すべてにわたってSOTAディープラーニングモデルを上回り、HCP-YAデータセットで最も平均的なピアソンのRと最低NMSEを達成します。
アブレーション研究は、マルチモーダル入力とPCAの両方がパフォーマンスの向上に寄与することを示しています。
目に見えないテストPPMIデータセットでは、TRACT2SHAPEはピアソンのRと低いNMSEを維持し、クロスダタセット評価の強力な一般化可能性を示しています。
tract2shapeを有効にして、データセット全体でスケーラブルな分析をサポートする、トラクトグラフィデータからの白質形状測定の高速で正確で一般化可能な予測を可能にします。
このフレームワークは、将来の大規模な白質形状分析のための有望な基盤を築きます。

要約(オリジナル)

Shape measures have emerged as promising descriptors of white matter tractography, offering complementary insights into anatomical variability and associations with cognitive and clinical phenotypes. However, conventional methods for computing shape measures are computationally expensive and time-consuming for large-scale datasets due to reliance on voxel-based representations. We propose Tract2Shape, a novel multimodal deep learning framework that leverages geometric (point cloud) and scalar (tabular) features to predict ten white matter tractography shape measures. To enhance model efficiency, we utilize a dimensionality reduction algorithm for the model to predict five primary shape components. The model is trained and evaluated on two independently acquired datasets, the HCP-YA dataset, and the PPMI dataset. We evaluate the performance of Tract2Shape by training and testing it on the HCP-YA dataset and comparing the results with state-of-the-art models. To further assess its robustness and generalization ability, we also test Tract2Shape on the unseen PPMI dataset. Tract2Shape outperforms SOTA deep learning models across all ten shape measures, achieving the highest average Pearson’s r and the lowest nMSE on the HCP-YA dataset. The ablation study shows that both multimodal input and PCA contribute to performance gains. On the unseen testing PPMI dataset, Tract2Shape maintains a high Pearson’s r and low nMSE, demonstrating strong generalizability in cross-dataset evaluation. Tract2Shape enables fast, accurate, and generalizable prediction of white matter shape measures from tractography data, supporting scalable analysis across datasets. This framework lays a promising foundation for future large-scale white matter shape analysis.

arxiv情報

著者 Yui Lo,Yuqian Chen,Dongnan Liu,Leo Zekelman,Jarrett Rushmore,Yogesh Rathi,Nikos Makris,Alexandra J. Golby,Fan Zhang,Weidong Cai,Lauren J. O’Donnell
発行日 2025-04-25 14:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | A Multimodal Deep Learning Approach for White Matter Shape Prediction in Diffusion MRI Tractography はコメントを受け付けていません

HepatoGEN: Generating Hepatobiliary Phase MRI with Perceptual and Adversarial Models

要約

動的コントラスト強化磁気共鳴画像(DCE-MRI)は、焦点肝病変の検出と特性評価において重要な役割を果たし、肝菌相(HBP)が重要な診断情報を提供します。
ただし、HBP画像を取得するには、スキャン時間の長期時間が必要であり、患者の快適性とスキャナースループットを損なう可能性があります。
この研究では、以前のコントラストフェーズ(事前トラストおよびトランジショナル)からHBP画像を合成するための深い学習ベースのアプローチを提案し、3つの生成モデルを比較します:知覚U-NET、知覚GAN(PGAN)、および拡散拡散プロベリスティックモデル(DDPM)。
多様な臨床設定からマルチサイトDCE-MRIデータセットをキュレーションし、トレーニングデータの品質を評価し、モデルのパフォーマンスを向上させるためにコントラスト進化スコア(CES)を導入しました。
盲検化放射線科医のレビューを介した定性的評価と組み合わせたピクセルごとのメトリックを使用した定量的評価は、PGANが最良の定量的パフォーマンスを達成したが、分散症のケースで不均一なコントラストを導入したことを示しました。
対照的に、U-NETは、より少ないアーティファクトで一貫した肝臓の増強を生成しましたが、DDPMは細かい構造の詳細の保存が限られているためパフォーマンスが低くなりました。
これらの発見は、診断ユーティリティを損なうことなくスキャン時間を短縮する手段としての合成HBP画像生成の実現可能性を示しており、肝臓MRIの動的コントラスト強化のための深い学習の臨床的可能性を強調しています。
プロジェクトデモは、https://jhooge.github.io/hepatogenで入手できます

要約(オリジナル)

Dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) plays a crucial role in the detection and characterization of focal liver lesions, with the hepatobiliary phase (HBP) providing essential diagnostic information. However, acquiring HBP images requires prolonged scan times, which may compromise patient comfort and scanner throughput. In this study, we propose a deep learning based approach for synthesizing HBP images from earlier contrast phases (precontrast and transitional) and compare three generative models: a perceptual U-Net, a perceptual GAN (pGAN), and a denoising diffusion probabilistic model (DDPM). We curated a multi-site DCE-MRI dataset from diverse clinical settings and introduced a contrast evolution score (CES) to assess training data quality, enhancing model performance. Quantitative evaluation using pixel-wise and perceptual metrics, combined with qualitative assessment through blinded radiologist reviews, showed that pGAN achieved the best quantitative performance but introduced heterogeneous contrast in out-of-distribution cases. In contrast, the U-Net produced consistent liver enhancement with fewer artifacts, while DDPM underperformed due to limited preservation of fine structural details. These findings demonstrate the feasibility of synthetic HBP image generation as a means to reduce scan time without compromising diagnostic utility, highlighting the clinical potential of deep learning for dynamic contrast enhancement in liver MRI. A project demo is available at: https://jhooge.github.io/hepatogen

arxiv情報

著者 Jens Hooge,Gerard Sanroma-Guell,Faidra Stavropoulou,Alexander Ullmann,Gesine Knobloch,Mark Klemens,Carola Schmidt,Sabine Weckbach,Andreas Bolz
発行日 2025-04-25 15:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HepatoGEN: Generating Hepatobiliary Phase MRI with Perceptual and Adversarial Models はコメントを受け付けていません

Instant Policy: In-Context Imitation Learning via Graph Diffusion

要約

大型トランスを使用したコンテキスト内学習の印象的な能力に従って、コンテキスト内の模倣学習(ICIL)は、ロボット工学の有望な機会です。
インスタントポリシーを導入します。これは、1つまたは2つのデモンストレーションから即座に(さらなるトレーニングなしで)即座に(さらにトレーニングを行うことなく)即座に学習し、2つの重要なコンポーネントを通じてICILを達成します。
まず、グラフ表現を介して誘導バイアスを導入し、学習した拡散プロセスのグラフ生成問題としてモデルICILを導入し、デモンストレーション、観察、およびアクションで構造化された推論を可能にします。
第二に、このようなモデルは、シミュレーションで生成された任意の軌跡 – トレーニングデータのプールとして、任意の軌跡を使用してトレーニングできることを示します。
シミュレートされた実際の実験は、インスタントポリシーがさまざまな日常のロボットタスクを迅速に学習できることを示しています。
また、言語定義のタスクへの交差存在とゼロショット転送の基盤としてどのように機能するかを示します。
コードとビデオはhttps://www.robot-learning.uk/instant-policyで入手できます。

要約(オリジナル)

Following the impressive capabilities of in-context learning with large transformers, In-Context Imitation Learning (ICIL) is a promising opportunity for robotics. We introduce Instant Policy, which learns new tasks instantly (without further training) from just one or two demonstrations, achieving ICIL through two key components. First, we introduce inductive biases through a graph representation and model ICIL as a graph generation problem with a learned diffusion process, enabling structured reasoning over demonstrations, observations, and actions. Second, we show that such a model can be trained using pseudo-demonstrations – arbitrary trajectories generated in simulation – as a virtually infinite pool of training data. Simulated and real experiments show that Instant Policy enables rapid learning of various everyday robot tasks. We also show how it can serve as a foundation for cross-embodiment and zero-shot transfer to language-defined tasks. Code and videos are available at https://www.robot-learning.uk/instant-policy.

arxiv情報

著者 Vitalis Vosylius,Edward Johns
発行日 2025-04-25 15:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Instant Policy: In-Context Imitation Learning via Graph Diffusion はコメントを受け付けていません

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

要約

次世代のマルチモーダル推論モデルであるSkywork R1v2と、その前身であるSkywork R1Vからのメジャーリープを紹介します。
R1v2は、その中心で、混合選好最適化(MPO)とグループ相対ポリシーの最適化(GRPO)を共同でレバレッジするハイブリッド強化学習パラダイムを導入します。これは、報酬モデルガイダンスをルールベースの戦略と調和させ、それによって広範な一般化を備えた洗練された推論カピバリティのバランスをとる洗練された課題に対処します。
トレーニング効率をさらに向上させるために、最適化プロセス全体で高価値サンプルに優先順位を付けることにより、GRPOに固有の「消滅する利点」のジレンマを効果的にカウンターする選択的サンプルバッファー(SSB)メカニズムを導入します。
特に、過度の補強信号が視覚的な幻覚を誘発する可能性があることが観察されます。これは、トレーニングプロセス全体で調整された報酬のしきい値を体系的に監視および軽減する現象です。
経験的結果は、R1v2の例外的な能力を確認し、62.6などのベンチマークをリードするパフォーマンス、Olympiadbenchでは78.9、LiveCodebenchで63.6、MMMUで73.6などのベンチマークをリードするパフォーマンスを確認します。
これらの結果は、既存のオープンソースモデルに対するR1v2の優位性を強調し、Gemini 2.5やOpenai-O4-Miniを含む最高の独自のシステムでパフォーマンスギャップを埋めることに大きな進歩を示しています。
Skywork R1v2モデルの重量は、開放性と再現性を促進するために公開されていますhttps://huggingface.co/skywork/skywork-r1v2-38b。

要約(オリジナル)

We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that jointly leverages the Mixed Preference Optimization (MPO) and the Group Relative Policy Optimization (GRPO), which harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we introduce the Selective Sample Buffer (SSB) mechanism, which effectively counters the “Vanishing Advantages” dilemma inherent in GRPO by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations–a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 78.9 on AIME2024, 63.6 on LiveCodeBench, and 73.6 on MMMU. These results underscore R1V2’s superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI-o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.

arxiv情報

著者 Chris,Yichen Wei,Yi Peng,Xiaokun Wang,Weijie Qiu,Wei Shen,Tianyidan Xie,Jiangbo Pei,Jianhao Zhang,Yunzhuo Hao,Xuchen Song,Yang Liu,Yahui Zhou
発行日 2025-04-25 15:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning はコメントを受け付けていません

A Multimodal Hybrid Late-Cascade Fusion Network for Enhanced 3D Object Detection

要約

マルチモーダル入力から3Dオブジェクトを検出する新しい方法を提示し、RGB検出ネットワークと3D LIDAR検出器を組み合わせたハイブリッド後期キャスケードスキームでLIDARカメラとRGBカメラの両方を活用します。
LIDARの偽陽性を減らすために後期融合原則を活用して、画像上のLIDARの境界ボックスを投影することにより、LIDAR検出をRGBのものと一致させます。
Cascade Fusionの原則に依存して、RGBの個別のビューの検出によって生成されたエピポーラの制約とフラストムを活用するLidarの偽陰性を回復します。
当社のソリューションは、基礎となるシングルモーダル検出器の上にプラグを付けることができ、事前に訓練されたLIDARおよびRGB検出器を利用できる柔軟なトレーニングプロセスを可能にしたり、2つのブランチを個別に訓練できます。
Kittiオブジェクト検出ベンチマークの結果を評価し、特に歩行者とサイクリストの検出のために、大幅なパフォーマンスの改善を示しています。

要約(オリジナル)

We present a new way to detect 3D objects from multimodal inputs, leveraging both LiDAR and RGB cameras in a hybrid late-cascade scheme, that combines an RGB detection network and a 3D LiDAR detector. We exploit late fusion principles to reduce LiDAR False Positives, matching LiDAR detections with RGB ones by projecting the LiDAR bounding boxes on the image. We rely on cascade fusion principles to recover LiDAR False Negatives leveraging epipolar constraints and frustums generated by RGB detections of separate views. Our solution can be plugged on top of any underlying single-modal detectors, enabling a flexible training process that can take advantage of pre-trained LiDAR and RGB detectors, or train the two branches separately. We evaluate our results on the KITTI object detection benchmark, showing significant performance improvements, especially for the detection of Pedestrians and Cyclists.

arxiv情報

著者 Carlo Sgaravatti,Roberto Basla,Riccardo Pieroni,Matteo Corno,Sergio M. Savaresi,Luca Magri,Giacomo Boracchi
発行日 2025-04-25 15:28:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Multimodal Hybrid Late-Cascade Fusion Network for Enhanced 3D Object Detection はコメントを受け付けていません

LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning

要約

単一の画像から目に見えないジオメトリの推論のための新しい方法である層状光線交差点(LARI)を提示します。
可視表面に限定された従来の深度推定とは異なり、lariは、層状のポイントマップを使用してカメラ線と交差する複数の表面をモデル化します。
コンパクトで階層化された表現の恩恵を受けるLariは、オブジェクトレベルのタスクとシーンレベルのタスクを統合するために、完全で効率的でビューアライメントされた幾何学的推論を可能にします。
さらに、ラリの出力から有効な交差するピクセルとレイヤーを識別する光線停止インデックスを予測することを提案します。
必要なデータクリーニングステップとレンダリングエンジン間の調整により、3Dオブジェクトやシーンを含む合成および実世界のデータの完全なトレーニングデータ生成パイプラインを構築します。
一般的な方法として、Lariのパフォーマンスは2つのシナリオで検証されています。トレーニングデータの4%とパラメーターの17%を使用して、最近の大きな生成モデルに匹敵するオブジェクトレベルの結果を生成します。
一方、シーンレベルの閉塞されたジオメトリの推論は、1つのフィードフォワードのみで達成されます。

要約(オリジナル)

We present layered ray intersections (LaRI), a new method for unseen geometry reasoning from a single image. Unlike conventional depth estimation that is limited to the visible surface, LaRI models multiple surfaces intersected by the camera rays using layered point maps. Benefiting from the compact and layered representation, LaRI enables complete, efficient, and view-aligned geometric reasoning to unify object- and scene-level tasks. We further propose to predict the ray stopping index, which identifies valid intersecting pixels and layers from LaRI’s output. We build a complete training data generation pipeline for synthetic and real-world data, including 3D objects and scenes, with necessary data cleaning steps and coordination between rendering engines. As a generic method, LaRI’s performance is validated in two scenarios: It yields comparable object-level results to the recent large generative model using 4% of its training data and 17% of its parameters. Meanwhile, it achieves scene-level occluded geometry reasoning in only one feed-forward.

arxiv情報

著者 Rui Li,Biao Zhang,Zhenyu Li,Federico Tombari,Peter Wonka
発行日 2025-04-25 15:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning はコメントを受け付けていません