UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving

要約

自律運転システムの認識と計画能力を高めるために、多様で現実的な運転シナリオの作成が不可欠になっています。
ただし、長期にわたるサラウンドビューの一貫した運転ビデオを生成することは、依然として大きな課題です。
これに対処するために、正確な制御の下で拡張されたストリートマルチパース視ビデオを生成するように設計された統一されたフレームワークであるUnimlvgを提示します。
単一およびマルチビューのドライビングビデオをトレーニングデータに統合することにより、当社のアプローチは、マルチトレーニング目標を備えた3つの段階にわたってクロスフレームおよびクロスビューモジュールを備えたDITベースの拡散モデルを更新し、生成された視覚コンテンツの多様性と品質を大幅に高めます。
重要なことに、モーション遷移の一貫性を効果的に改善するために、マルチビュービデオ生成のための革新的な明示的な視点モデリングアプローチを提案します。
さまざまな入力参照形式(テキスト、画像、ビデオなど)を処理できる場合、UNIMLVGは、3Dバウンディングボックスやフレームレベルのテキストの説明などの対応する条件の制約に従って高品質のマルチビュービデオを生成します。
同様の機能を備えた最高のモデルと比較して、当社のフレームワークは、FIDで48.2%、FVDで35.2%の改善を達成しています。

要約(オリジナル)

The creation of diverse and realistic driving scenarios has become essential to enhance perception and planning capabilities of the autonomous driving system. However, generating long-duration, surround-view consistent driving videos remains a significant challenge. To address this, we present UniMLVG, a unified framework designed to generate extended street multi-perspective videos under precise control. By integrating single- and multi-view driving videos into the training data, our approach updates a DiT-based diffusion model equipped with cross-frame and cross-view modules across three stages with multi training objectives, substantially boosting the diversity and quality of generated visual content. Importantly, we propose an innovative explicit viewpoint modeling approach for multi-view video generation to effectively improve motion transition consistency. Capable of handling various input reference formats (e.g., text, images, or video), our UniMLVG generates high-quality multi-view videos according to the corresponding condition constraints such as 3D bounding boxes or frame-level text descriptions. Compared to the best models with similar capabilities, our framework achieves improvements of 48.2% in FID and 35.2% in FVD.

arxiv情報

著者 Rui Chen,Zehuan Wu,Yichen Liu,Yuxin Guo,Jingcheng Ni,Haifeng Xia,Siyu Xia
発行日 2025-03-06 14:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving はコメントを受け付けていません

Learning Object Placement Programs for Indoor Scene Synthesis with Iterative Self Training

要約

データ駆動型および自己回復的な屋内シーンの合成システムは、オブジェクトを一度に1つずつ提案してから配置することにより、屋内シーンを自動的に生成します。
経験的観察は、現在のシステムが不完全な次のオブジェクトの位置分布を生成する傾向があることを示しています。
この問題に対処するシステムを紹介します。
機能的制約を指定するドメイン固有言語(DSL)を設計します。
私たちの言語からのプログラムは、配置する部分的なシーンとオブジェクトを入力します。
実行時に、可能なオブジェクトの配置を予測します。
これらのプログラムを自動的に書き込む生成モデルを設計します。
利用可能な3Dシーンデータセットには、トレーニングするプログラムが含まれていないため、新しいプログラムブートストラップアルゴリズムを導入するために、監視されていないプログラム導入の以前の作業に基づいて構築します。
経験的な観察を定量化するために、システムがオブジェクトごとの位置分布をどの程度うまくモデル化するかをキャプチャする新しい評価手順を導入します。
人間のアノテーターに、オブジェクトがシーンに移動できるすべての可能な場所にラベルを付けて、システムが人間のアノテーターとより一致するオブジェクトごとの位置分布を生成することを示すように依頼します。
また、私たちのシステムは、以前のシステムに匹敵する品質の屋内シーンを生成し、トレーニングデータがまばらである場合、以前のシステムがパフォーマンスを低下させますが、システムは同じ程度まで劣化しません。

要約(オリジナル)

Data driven and autoregressive indoor scene synthesis systems generate indoor scenes automatically by suggesting and then placing objects one at a time. Empirical observations show that current systems tend to produce incomplete next object location distributions. We introduce a system which addresses this problem. We design a Domain Specific Language (DSL) that specifies functional constraints. Programs from our language take as input a partial scene and object to place. Upon execution they predict possible object placements. We design a generative model which writes these programs automatically. Available 3D scene datasets do not contain programs to train on, so we build upon previous work in unsupervised program induction to introduce a new program bootstrapping algorithm. In order to quantify our empirical observations we introduce a new evaluation procedure which captures how well a system models per-object location distributions. We ask human annotators to label all the possible places an object can go in a scene and show that our system produces per-object location distributions more consistent with human annotators. Our system also generates indoor scenes of comparable quality to previous systems and while previous systems degrade in performance when training data is sparse, our system does not degrade to the same degree.

arxiv情報

著者 Adrian Chang,Kai Wang,Yuanbo Li,Manolis Savva,Angel X. Chang,Daniel Ritchie
発行日 2025-03-06 14:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, I.3.6 | Learning Object Placement Programs for Indoor Scene Synthesis with Iterative Self Training はコメントを受け付けていません

Spatial regularisation for improved accuracy and interpretability in keypoint-based registration

要約

監視されていない登録戦略は、固定ボリュームと移動されたボリューム間の類似性メトリックを最適化することにより、グラウンドトゥルースの変換またはセグメンテーションの要件をバイパスします。
これらの方法の中で、監視されていないキーポイント検出に基づいたアプローチの最近のサブクラスは、解釈可能性を非常に有望であると際立っています。
具体的には、これらのメソッドは、固定および移動する画像の機能マップを予測するためのネットワークをトレーニングします。この画像は、説明可能な質量の中心を計算して点雲を取得し、閉じた形状で整列します。
ただし、ネットワークによって返される機能は、多くの場合、解釈が難しい空間的に拡散したパターンを生成し、キーポイントベースの登録の目的を損なうことがよくあります。
ここでは、機能の空間分布を正規化するために3倍の損失を提案します。
まず、KL Divergenceを使用して、確率的キーポイントとして解釈するポイントスプレッド関数として特徴をモデル化します。
次に、これらの機能の空間分布をシャープにして、検出されたランドマークの精度を高めます。
最後に、空間的多様性を促進するために、キーポイント全体に新しい反発的損失を導入します。
全体として、私たちの損失は、現在では正確で解剖学的に意味のあるランドマークに対応する機能の解釈可能性を大幅に改善します。
胎児の剛性モーショントラッキングと脳MRIアフィン登録タスクの3つの損失を示します。ここでは、最先端の非監視されていない戦略を上回るだけでなく、最先端の監視方法でギャップを埋めます。
当社のコードは、https://github.com/benbillot/spatial_ reguliveisationで入手できます。

要約(オリジナル)

Unsupervised registration strategies bypass requirements in ground truth transforms or segmentations by optimising similarity metrics between fixed and moved volumes. Among these methods, a recent subclass of approaches based on unsupervised keypoint detection stand out as very promising for interpretability. Specifically, these methods train a network to predict feature maps for fixed and moving images, from which explainable centres of mass are computed to obtain point clouds, that are then aligned in closed-form. However, the features returned by the network often yield spatially diffuse patterns that are hard to interpret, thus undermining the purpose of keypoint-based registration. Here, we propose a three-fold loss to regularise the spatial distribution of the features. First, we use the KL divergence to model features as point spread functions that we interpret as probabilistic keypoints. Then, we sharpen the spatial distributions of these features to increase the precision of the detected landmarks. Finally, we introduce a new repulsive loss across keypoints to encourage spatial diversity. Overall, our loss considerably improves the interpretability of the features, which now correspond to precise and anatomically meaningful landmarks. We demonstrate our three-fold loss in foetal rigid motion tracking and brain MRI affine registration tasks, where it not only outperforms state-of-the-art unsupervised strategies, but also bridges the gap with state-of-the-art supervised methods. Our code is available at https://github.com/BenBillot/spatial_regularisation.

arxiv情報

著者 Benjamin Billot,Ramya Muthukrishnan,Esra Abaci-Turk,Ellen P. Grant,Nicholas Ayache,Hervé Delingette,Polina Golland
発行日 2025-03-06 14:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spatial regularisation for improved accuracy and interpretability in keypoint-based registration はコメントを受け付けていません

ReynoldsFlow: Exquisite Flow Estimation via Reynolds Transport Theorem

要約

光学フローは、動画の安定化、補間、およびオブジェクト追跡に広く適用される動き推定の基本的な手法です。
人工知能(AI)の最近の進歩により、深い学習モデルは、動き分析の重要な機能として光流量を活用することができました。
ただし、従来の光学フロー方法は、輝度の恒常性やスローモーションの制約などの制限的な仮定に依存しており、複雑なシーンでの有効性を制限しています。
ディープラーニングベースのアプローチでは、大規模なドメイン固有のデータセットに関する広範なトレーニングが必要であり、計算的に厳しいものにします。
さらに、光学フローは通常、HSVカラー空間で視覚化されます。これは、RGBに変換されたときに非線形歪みをもたらし、ノイズ、モーション表現の精度を低下させることに非常に敏感です。
これらの制限は、オブジェクトの追跡とモーション分析のタスクを妨げる可能性がある、下流モデルのパフォーマンスを本質的に制限します。
これらの課題に対処するために、レイノルズの輸送定理に触発された新しいトレーニングフリーフロー推定であるレイノルズフローを提案し、複雑なモーションダイナミクスをモデリングするための原則的なアプローチを提供します。
ReynoldsFlowと呼ばれる従来のHSVベースの視覚化を超えて、流れの視覚化を改善するように設計された代替表現であるReynoldsFlow+を紹介します。
3つのビデオベースのベンチマークでReynoldsFlowとReynoldsFlow+を評価します。UAVDBでの小さなオブジェクト検出、Anti-UAVでの赤外線検出、GolfDBでの推定のポーズ推定。
実験結果は、Reynoldsflow+でトレーニングされたネットワークが最先端の(SOTA)パフォーマンスを達成し、すべてのタスクで堅牢性と効率を改善することを示しています。

要約(オリジナル)

Optical flow is a fundamental technique for motion estimation, widely applied in video stabilization, interpolation, and object tracking. Recent advancements in artificial intelligence (AI) have enabled deep learning models to leverage optical flow as an important feature for motion analysis. However, traditional optical flow methods rely on restrictive assumptions, such as brightness constancy and slow motion constraints, limiting their effectiveness in complex scenes. Deep learning-based approaches require extensive training on large domain-specific datasets, making them computationally demanding. Furthermore, optical flow is typically visualized in the HSV color space, which introduces nonlinear distortions when converted to RGB and is highly sensitive to noise, degrading motion representation accuracy. These limitations inherently constrain the performance of downstream models, potentially hindering object tracking and motion analysis tasks. To address these challenges, we propose Reynolds flow, a novel training-free flow estimation inspired by the Reynolds transport theorem, offering a principled approach to modeling complex motion dynamics. Beyond the conventional HSV-based visualization, denoted ReynoldsFlow, we introduce an alternative representation, ReynoldsFlow+, designed to improve flow visualization. We evaluate ReynoldsFlow and ReynoldsFlow+ across three video-based benchmarks: tiny object detection on UAVDB, infrared object detection on Anti-UAV, and pose estimation on GolfDB. Experimental results demonstrate that networks trained with ReynoldsFlow+ achieve state-of-the-art (SOTA) performance, exhibiting improved robustness and efficiency across all tasks.

arxiv情報

著者 Yu-Hsi Chen,Chin-Tien Wu
発行日 2025-03-06 14:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ReynoldsFlow: Exquisite Flow Estimation via Reynolds Transport Theorem はコメントを受け付けていません

IMFine: 3D Inpainting via Geometry-guided Multi-view Refinement

要約

現在の3Dのインペインティングおよびオブジェクトの削除方法は、主に前面のシーンに限定されており、カメラの向きと軌跡が無制限の多様な「制約のない」シーンに適用されると、大きな課題に直面しています。
このギャップを埋めるために、前面と制約のないシーンの両方で、一貫した視覚品質とコヒーレントな基礎となるジオメトリを備えた塗装された3Dシーンを生成する新しいアプローチを紹介します。
具体的には、幾何学的なプライアーと、事前に訓練された画像の開始モデルに基づいてテスト時間適応を介してトレーニングされたマルチビュー改良ネットワークを組み込んだ堅牢な3Dインペインティングパイプラインを提案します。
さらに、オブジェクトマスクからのターゲットインペインティングマスクを導出するための新しいインペインティングマスク検出技術を開発し、制約のないシーンの処理際のパフォーマンスを高めます。
アプローチの有効性を検証するために、幅広いシーンにまたがる挑戦的で多様なベンチマークを作成します。
包括的な実験は、提案された方法が既存の最先端のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

Current 3D inpainting and object removal methods are largely limited to front-facing scenes, facing substantial challenges when applied to diverse, ‘unconstrained’ scenes where the camera orientation and trajectory are unrestricted. To bridge this gap, we introduce a novel approach that produces inpainted 3D scenes with consistent visual quality and coherent underlying geometry across both front-facing and unconstrained scenes. Specifically, we propose a robust 3D inpainting pipeline that incorporates geometric priors and a multi-view refinement network trained via test-time adaptation, building on a pre-trained image inpainting model. Additionally, we develop a novel inpainting mask detection technique to derive targeted inpainting masks from object masks, boosting the performance in handling unconstrained scenes. To validate the efficacy of our approach, we create a challenging and diverse benchmark that spans a wide range of scenes. Comprehensive experiments demonstrate that our proposed method substantially outperforms existing state-of-the-art approaches.

arxiv情報

著者 Zhihao Shi,Dong Huo,Yuhongze Zhou,Kejia Yin,Yan Min,Juwei Lu,Xinxin Zuo
発行日 2025-03-06 14:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IMFine: 3D Inpainting via Geometry-guided Multi-view Refinement はコメントを受け付けていません

FSPGD: Rethinking Black-box Attacks on Semantic Segmentation

要約

1つのモデルが他のモデルを欺くために作成された敵対的な例の能力である転送可能性は、ブラックボックス攻撃にとって重要です。
セマンティックセグメンテーションのための攻撃方法の進歩にもかかわらず、転送可能性は限られたままであり、実際のアプリケーションでの有効性が低下します。
これに対処するために、攻撃性能と転送可能性の両方を高める新しいブラックボックスアプローチである、特徴の類似性投影勾配降下(FSPGD)攻撃を導入します。
勾配計算の出力予測に依存する従来のセグメンテーション攻撃とは異なり、FSPGDは中間層の特徴から勾配を計算します。
具体的には、我々の方法では、クリーンな画像と敵対例の特徴を比較することにより、ローカル情報をターゲットにする損失関数を導入し、オブジェクト間の空間的関係を説明することによりコンテキスト情報を破壊します。
Pascal VOC 2012およびCityscapesデータセットの実験は、FSPGDが優れた移動性と攻撃性能を達成し、新しい最先端のベンチマークを確立することを示しています。
コードはhttps://github.com/ku-aivs/fspgdで入手できます。

要約(オリジナル)

Transferability, the ability of adversarial examples crafted for one model to deceive other models, is crucial for black-box attacks. Despite advancements in attack methods for semantic segmentation, transferability remains limited, reducing their effectiveness in real-world applications. To address this, we introduce the Feature Similarity Projected Gradient Descent (FSPGD) attack, a novel black-box approach that enhances both attack performance and transferability. Unlike conventional segmentation attacks that rely on output predictions for gradient calculation, FSPGD computes gradients from intermediate layer features. Specifically, our method introduces a loss function that targets local information by comparing features between clean images and adversarial examples, while also disrupting contextual information by accounting for spatial relationships between objects. Experiments on Pascal VOC 2012 and Cityscapes datasets demonstrate that FSPGD achieves superior transferability and attack performance, establishing a new state-of-the-art benchmark. Code is available at https://github.com/KU-AIVS/FSPGD.

arxiv情報

著者 Eun-Sol Park,MiSo Park,Seung Park,Yong-Goo Shin
発行日 2025-03-06 14:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FSPGD: Rethinking Black-box Attacks on Semantic Segmentation はコメントを受け付けていません

AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM

要約

ビデオ異常検出(VAD)は、ビデオ分析とコンピュータービジョンの監視に不可欠です。
ただし、既存のVADモデルは、学習した通常のパターンに依存しているため、多様な環境に適用することが困難になります。
したがって、ユーザーはモデルを再編成するか、新しい環境の個別のAIモデルを開発する必要があります。これには、機械学習、高性能ハードウェア、および広範なデータ収集の専門知識が必要であり、VADの実用的な使いやすさが制限されます。
これらの課題に対処するために、この研究では、カスタマイズ可能なビデオアノマリー検出(C-VAD)手法とアニオヨーマリーモデルを提案しています。
C-Vadは、ユーザー定義のテキストを異常なイベントと見なし、ビデオに指定されたイベントを含むフレームを検出します。
大規模なビジョン言語モデルを微調整することなく、コンテキスト認識の視覚的質問に応答することを使用して、Anyanomalyを効果的に実装しました。
提案されたモデルの有効性を検証するために、C-VADデータセットを構築し、Anyanomalyの優位性を実証しました。
さらに、私たちのアプローチは、VADベンチマークデータセットで競争力のあるパフォーマンスを示し、すべてのデータセットで一般化の他の方法を上回るUbnormalデータセットで最先端の結果を達成しました。
私たちのコードは、github.com/skiddieahn/paper-anyanomalyでオンラインで入手できます。

要約(オリジナル)

Video anomaly detection (VAD) is crucial for video analysis and surveillance in computer vision. However, existing VAD models rely on learned normal patterns, which makes them difficult to apply to diverse environments. Consequently, users should retrain models or develop separate AI models for new environments, which requires expertise in machine learning, high-performance hardware, and extensive data collection, limiting the practical usability of VAD. To address these challenges, this study proposes customizable video anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers user-defined text as an abnormal event and detects frames containing a specified event in a video. We effectively implemented AnyAnomaly using a context-aware visual question answering without fine-tuning the large vision language model. To validate the effectiveness of the proposed model, we constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly. Furthermore, our approach showed competitive performance on VAD benchmark datasets, achieving state-of-the-art results on the UBnormal dataset and outperforming other methods in generalization across all datasets. Our code is available online at github.com/SkiddieAhn/Paper-AnyAnomaly.

arxiv情報

著者 Sunghyun Ahn,Youngwan Jo,Kijung Lee,Sein Kwon,Inpyo Hong,Sanghyun Park
発行日 2025-03-06 14:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM はコメントを受け付けていません

A Novel Solution for Drone Photogrammetry with Low-overlap Aerial Images using Monocular Depth Estimation

要約

低オーバーラップ航空画像は、伝統的な写真測量法に大きな課題をもたらします。これは、高い画像のオーバーラップに大きく依存して、正確で完全なマッピング製品を生成します。
この研究では、従来の技術の制限に対処するための単眼深度推定に基づいた新しいワークフローを提案します。
私たちの方法は、航空の三角測量から得られたタイポイントを活用して、単眼の深さとメトリック深度の関係を確立し、元の深度マップをメトリック深度マップに変換し、密な深さ情報の生成とシーンの包括的な再構築を可能にします。
実験では、296個の画像を含むハイオーバーラップドローンデータセットがMetaShapeを使用して処理され、深さマップとDSMをグラウンドトゥルースとして生成します。
その後、実験的評価のために20の画像を選択して、低オーバーラップデータセットを作成します。
結果は、回収された深度マップと結果として生じるDSMがメーターレベルの精度を達成するが、特に単一の画像でカバーされている領域では、従来の方法と比較して非常に優れた完全性を提供することを示しています。
この研究では、低オーバーラップ航空写真測量における単眼深度推定の可能性を示しています。

要約(オリジナル)

Low-overlap aerial imagery poses significant challenges to traditional photogrammetric methods, which rely heavily on high image overlap to produce accurate and complete mapping products. In this study, we propose a novel workflow based on monocular depth estimation to address the limitations of conventional techniques. Our method leverages tie points obtained from aerial triangulation to establish a relationship between monocular depth and metric depth, thus transforming the original depth map into a metric depth map, enabling the generation of dense depth information and the comprehensive reconstruction of the scene. For the experiments, a high-overlap drone dataset containing 296 images is processed using Metashape to generate depth maps and DSMs as ground truth. Subsequently, we create a low-overlap dataset by selecting 20 images for experimental evaluation. Results demonstrate that while the recovered depth maps and resulting DSMs achieve meter-level accuracy, they provide significantly better completeness compared to traditional methods, particularly in regions covered by single images. This study showcases the potential of monocular depth estimation in low-overlap aerial photogrammetry.

arxiv情報

著者 Jiageng Zhong,Qi Zhou,Ming Li,Armin Gruen,Xuan Liao
発行日 2025-03-06 14:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Novel Solution for Drone Photogrammetry with Low-overlap Aerial Images using Monocular Depth Estimation はコメントを受け付けていません

MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation

要約

制御可能な3Dシーン生成には、仮想現実とインテリアデザインに広範なアプリケーションがあり、生成されたシーンは、ジオメトリの観点から高レベルのリアリズムと制御性を示す必要があります。
シーングラフは、これらのアプリケーションを容易にする適切なデータ表現を提供します。
ただし、シーン生成向けの現在のグラフベースの方法は、テキストベースの入力に制約され、柔軟なユーザー入力に対する適応性が不十分であることを示し、オブジェクトジオメトリを正確に制御する能力を妨げます。
この問題に対処するために、新しい混合モダリティグラフ、視覚エンハンスメントモジュール、および関係予測子を組み込んだシーン生成のデュアルブランチ拡散モデルであるMMGDreamerを提案します。
混合モダリティグラフにより、オブジェクトノードはテキストと視覚のモダリティを統合し、ノード間のオプションの関係を備えています。
これにより、柔軟なユーザー入力への適応性が向上し、生成されたシーンのオブジェクトのジオメトリを綿密に制御できます。
視覚強化モジュールは、テキストの埋め込みを使用して視覚表現を構築することにより、テキストのみのノードの視覚的忠実度を豊かにします。
さらに、関係予測子はノード表現をレバレッジして、ノード間の関係がないことを推測し、よりコヒーレントなシーンレイアウトをもたらします。
広範な実験結果は、MMGDreamerがオブジェクトジオメトリの優れた制御を示し、最先端のシーン生成パフォーマンスを達成することを示しています。
プロジェクトページ:https://yangzhifeio.github.io/project/mmgdreamer。

要約(オリジナル)

Controllable 3D scene generation has extensive applications in virtual reality and interior design, where the generated scenes should exhibit high levels of realism and controllability in terms of geometry. Scene graphs provide a suitable data representation that facilitates these applications. However, current graph-based methods for scene generation are constrained to text-based inputs and exhibit insufficient adaptability to flexible user inputs, hindering the ability to precisely control object geometry. To address this issue, we propose MMGDreamer, a dual-branch diffusion model for scene generation that incorporates a novel Mixed-Modality Graph, visual enhancement module, and relation predictor. The mixed-modality graph allows object nodes to integrate textual and visual modalities, with optional relationships between nodes. It enhances adaptability to flexible user inputs and enables meticulous control over the geometry of objects in the generated scenes. The visual enhancement module enriches the visual fidelity of text-only nodes by constructing visual representations using text embeddings. Furthermore, our relation predictor leverages node representations to infer absent relationships between nodes, resulting in more coherent scene layouts. Extensive experimental results demonstrate that MMGDreamer exhibits superior control of object geometry, achieving state-of-the-art scene generation performance. Project page: https://yangzhifeio.github.io/project/MMGDreamer.

arxiv情報

著者 Zhifei Yang,Keyang Lu,Chao Zhang,Jiaxing Qi,Hanqi Jiang,Ruifei Ma,Shenglin Yin,Yifan Xu,Mingzhe Xing,Zhen Xiao,Jieyi Long,Xiangde Liu,Guangyao Zhai
発行日 2025-03-06 15:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation はコメントを受け付けていません

In-Context Reverse Classification Accuracy: Efficient Estimation of Segmentation Quality without Ground-Truth

要約

自動画像セグメンテーションの品質を評価することは、臨床診療では非常に重要ですが、グラウンドトゥルースアノテーションの入手可能性が限られているため、多くの場合非常に困難です。
このホワイトペーパーでは、根真実の注釈がない場合にセグメンテーション品質を自動的に推定するための新しいフレームワークであるコンテキスト内逆分類精度(コンテキストRCA)を紹介します。
最近のコンテキスト内学習セグメンテーションモデルを活用し、検索の高度技術を組み込んで最も関連性の高い参照画像を選択することにより、このアプローチにより、最小限の参照データを使用して効率的な品質推定を可能にします。
多様な医療イメージングモダリティ全体で検証されたこの方法は、堅牢なパフォーマンスと計算効率を示しており、高速で信頼できるセグメンテーション評価が不可欠な臨床ワークフローでの自動品質制御の有望なソリューションを提供します。
このコードは、https://github.com/mcosarinsky/in-context-rcaで入手できます。

要約(オリジナル)

Assessing the quality of automatic image segmentation is crucial in clinical practice, but often very challenging due to the limited availability of ground truth annotations. In this paper, we introduce In-Context Reverse Classification Accuracy (In-Context RCA), a novel framework for automatically estimating segmentation quality in the absence of ground-truth annotations. By leveraging recent in-context learning segmentation models and incorporating retrieval-augmentation techniques to select the most relevant reference images, our approach enables efficient quality estimation with minimal reference data. Validated across diverse medical imaging modalities, our method demonstrates robust performance and computational efficiency, offering a promising solution for automated quality control in clinical workflows, where fast and reliable segmentation assessment is essential. The code is available at https://github.com/mcosarinsky/In-Context-RCA.

arxiv情報

著者 Matias Cosarinsky,Ramiro Billot,Lucas Mansilla,Gabriel Gimenez,Nicolas Gaggión,Guanghui Fu,Enzo Ferrante
発行日 2025-03-06 15:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | In-Context Reverse Classification Accuracy: Efficient Estimation of Segmentation Quality without Ground-Truth はコメントを受け付けていません