X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

要約

拡散モデルは、現実的なデータ統合、予測エンドツーエンド計画、および閉ループシミュレーションを可能にすることにより、一時的に一貫した生成に焦点を当てて自律的な運転を進めています。
ただし、空間的一貫性を必要とする大規模な3Dシーンの生成は、既知のままです。
この論文では、柔軟な制御性を提供しながら、幾何学的複雑さと外観の忠実度の両方を達成する大規模な運転シーン生成のための新しいフレームワークであるX-Sceneを提案します。
具体的には、X-sceneは、詳細なシーン構成のためのユーザーが提供するレベルまたはテキスト駆動型のレイアウトや、ユーザーインテントやLLMが登録したテキストなどの高レベルのセマンティックガイダンスなど、効率的なカスタマイズのための高レベルのセマンティックガイダンスを含む、多顆粒コントロールをサポートします。
幾何学的および視覚的な忠実度を高めるために、3Dセマンティック占有率と対応するマルチビュー画像を順次生成し、モダリティ間のアライメントを確保する統一されたパイプラインを導入します。
さらに、生成されたローカル領域を、以前に生成された領域に条件付けられた新しい占有率と画像を推定し、空間の連続性を高め、視覚的な一貫性を維持する一貫性が認識されたシーンの上昇を通じて、生成されたローカル領域を大規模なシーンに拡張します。
結果のシーンは、高品質の3DGS表現に持ち上げられ、シーン探査などの多様なアプリケーションをサポートします。
包括的な実験は、X-Sceneが大規模な運転シーン生成の制御可能性と忠実度を大幅に高め、自律運転のデータ生成とシミュレーションを強化することを示しています。

要約(オリジナル)

Diffusion models are advancing autonomous driving by enabling realistic data synthesis, predictive end-to-end planning, and closed-loop simulation, with a primary focus on temporally consistent generation. However, the generation of large-scale 3D scenes that require spatial coherence remains underexplored. In this paper, we propose X-Scene, a novel framework for large-scale driving scene generation that achieves both geometric intricacy and appearance fidelity, while offering flexible controllability. Specifically, X-Scene supports multi-granular control, including low-level conditions such as user-provided or text-driven layout for detailed scene composition and high-level semantic guidance such as user-intent and LLM-enriched text prompts for efficient customization. To enhance geometrical and visual fidelity, we introduce a unified pipeline that sequentially generates 3D semantic occupancy and the corresponding multiview images, while ensuring alignment between modalities. Additionally, we extend the generated local region into a large-scale scene through consistency-aware scene outpainting, which extrapolates new occupancy and images conditioned on the previously generated area, enhancing spatial continuity and preserving visual coherence. The resulting scenes are lifted into high-quality 3DGS representations, supporting diverse applications such as scene exploration. Comprehensive experiments demonstrate that X-Scene significantly advances controllability and fidelity for large-scale driving scene generation, empowering data generation and simulation for autonomous driving.

arxiv情報

著者 Yu Yang,Alan Liang,Jianbiao Mei,Yukai Ma,Yong Liu,Gim Hee Lee
発行日 2025-06-16 14:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

AirIO: Learning Inertial Odometry with Enhanced IMU Feature Observability

要約

慣性模範(IO)のみを使用した慣性臭気(IO)(IMUS)は、無人航空機(UAV)アプリケーションに軽量で費用対効果の高いソリューションを提供しますが、既存の学習ベースのIOモデルは、歩行者の動きとは異なる非常に動的で非線形の飛行パターンのためにUAVに一般化できないことがよくあります。
この作業では、生のIMUデータをグローバル座標に変換する従来の実践が、UAVの重要な運動情報の観察性を損なうことを明らかにしていることを特定します。
ボディフレーム表現を保存することにより、この方法は大幅なパフォーマンスの改善を達成し、3つのデータセットで平均精度が66.7%増加します。
さらに、モーションネットワークに姿勢情報を明示的にエンコードすると、以前の結果よりも23.8%の改善がさらになります。
データ駆動型のIMU補正モデル(AIRIMU)と不確実性を認識した拡張カルマンフィルター(EKF)と組み合わせて、私たちのアプローチは、外部センサーや制御入力に依存せずに積極的なUAV操作の下で堅牢な状態推定を保証します。
特に、私たちの方法は、トレーニングセットに含まれていない目に見えないデータに対する強力な一般化可能性も示しており、実際のUAVアプリケーションの可能性を強調しています。

要約(オリジナル)

Inertial odometry (IO) using only Inertial Measurement Units (IMUs) offers a lightweight and cost-effective solution for Unmanned Aerial Vehicle (UAV) applications, yet existing learning-based IO models often fail to generalize to UAVs due to the highly dynamic and non-linear-flight patterns that differ from pedestrian motion. In this work, we identify that the conventional practice of transforming raw IMU data to global coordinates undermines the observability of critical kinematic information in UAVs. By preserving the body-frame representation, our method achieves substantial performance improvements, with a 66.7% average increase in accuracy across three datasets. Furthermore, explicitly encoding attitude information into the motion network results in an additional 23.8% improvement over prior results. Combined with a data-driven IMU correction model (AirIMU) and an uncertainty-aware Extended Kalman Filter (EKF), our approach ensures robust state estimation under aggressive UAV maneuvers without relying on external sensors or control inputs. Notably, our method also demonstrates strong generalizability to unseen data not included in the training set, underscoring its potential for real-world UAV applications.

arxiv情報

著者 Yuheng Qiu,Can Xu,Yutian Chen,Shibo Zhao,Junyi Geng,Sebastian Scherer
発行日 2025-06-16 14:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models

要約

複数のビデオフレーム機能を圧縮する前に、大規模なマルチモーダルモデルにフィードするための効率的なフレームワークを提案し、それにより、長いまたは密集したビデオから生じる重度のトークン爆発を軽減します。
当社の設計は、ゲート付きスキップ接続と、定期的に挿入された学習クエリに適用される学習可能な加重平均プーリングメカニズムを備えた双方向の状態空間ベースのブロックを活用しています。
この構造により、空間的および時間的次元の両方にわたって階層的なダウンサンプリングが可能になり、コスト効率の高い方法でパフォーマンスを維持できます。
挑戦的な長く密集したビデオ理解タスクを超えて、私たちのアプローチは、最先端のモデルに対する競争結果を示していますが、全体的なトークン予算を大幅に削減します。
特に、提案されている状態空間ブロックを従来の変圧器に置き換えると、実質的な性能劣化が発生し、マルチフレームビデオデータを効果的に圧縮するための状態空間モデリングの利点を強調します。
私たちのフレームワークは、リソースに配慮した効率性を強調しており、実際の展開に実用的です。
複数のベンチマークにわたるスケーラビリティと一般性を検証し、効率的なリソース使用と包括的なビデオ理解の二重の目的を達成します。

要約(オリジナル)

We propose an efficient framework to compress multiple video-frame features before feeding them into large multimodal models, thereby mitigating the severe token explosion arising from long or dense videos. Our design leverages a bidirectional state-space-based block equipped with a gated skip connection and a learnable weighted-average pooling mechanism applied to periodically inserted learned queries. This structure enables hierarchical downsampling across both spatial and temporal dimensions, preserving performance in a cost-effective manner. Across challenging long and dense video understanding tasks, our approach demonstrates competitive results against state-of-the-art models, while significantly reducing overall token budget. Notably, replacing our proposed state-space block with a conventional Transformer results in substantial performance degradation, highlighting the advantages of state-space modeling for effectively compressing multi-frame video data. Our framework emphasizes resource-conscious efficiency, making it practical for real-world deployments. We validate its scalability and generality across multiple benchmarks, achieving the dual objectives of efficient resource usage and comprehensive video understanding.

arxiv情報

著者 Geewook Kim,Minjoon Seo
発行日 2025-06-16 14:49:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Integrated Pipeline for Monocular 3D Reconstruction and Finite Element Simulation in Industrial Applications

要約

機器の展開の難しさや、精度とリアルタイムのパフォーマンスのバランスをとることの難しさなど、産業環境における3Dモデリングと構造シミュレーションの課題に対処するために、このペーパーでは、モノクラービデオ、有限要素シミュレーション分析、混合現実視覚ディスプレイに基づいた高融合の3D再構成を統合し、産業用シーンのインタラクティブなTwinシステムを構築することを目指しています。
第一に、ディープラーニングに基づくNeuralAngeloアルゴリズムを使用して、サラウンドショットビデオの豊富な詳細を使用して3Dメッシュモデルを再構築します。
次に、RhinoのQuadremeshツールを使用して、初期の三角メッシュを最適化し、有限要素分析に適した構造メッシュを生成します。
最適化されたメッシュは、Hypermeshによってさらに離散化され、材料パラメーターの設定と応力シミュレーションは、高精度の応力と変形の結果を得るためにAbaqusで実行されます。
最後に、UnityおよびVuforiaエンジンと組み合わせることで、拡張現実環境でのシミュレーション結果のリアルタイムの重ね合わせとインタラクティブな操作が実現され、ユーザーの構造応答に対する直感的な理解が向上します。
実験は、この方法が高幾何学的精度を維持しながら、優れたシミュレーション効率と視覚化効果を持っていることを示しています。
複雑な産業シーンでのデジタルモデリング、機械分析、インタラクティブなディスプレイのための実用的なソリューションを提供し、産業用アプリケーションにおけるデジタルツインと混合リアリティテクノロジーを深く統合するための基礎を築きます。

要約(オリジナル)

To address the challenges of 3D modeling and structural simulation in industrial environment, such as the difficulty of equipment deployment, and the difficulty of balancing accuracy and real-time performance, this paper proposes an integrated workflow, which integrates high-fidelity 3D reconstruction based on monocular video, finite element simulation analysis, and mixed reality visual display, aiming to build an interactive digital twin system for industrial inspection, equipment maintenance and other scenes. Firstly, the Neuralangelo algorithm based on deep learning is used to reconstruct the 3D mesh model with rich details from the surround-shot video. Then, the QuadRemesh tool of Rhino is used to optimize the initial triangular mesh and generate a structured mesh suitable for finite element analysis. The optimized mesh is further discretized by HyperMesh, and the material parameter setting and stress simulation are carried out in Abaqus to obtain high-precision stress and deformation results. Finally, combined with Unity and Vuforia engine, the real-time superposition and interactive operation of simulation results in the augmented reality environment are realized, which improves users ‘intuitive understanding of structural response. Experiments show that the method has good simulation efficiency and visualization effect while maintaining high geometric accuracy. It provides a practical solution for digital modeling, mechanical analysis and interactive display in complex industrial scenes, and lays a foundation for the deep integration of digital twin and mixed reality technology in industrial applications.

arxiv情報

著者 Bowen Zheng
発行日 2025-06-16 14:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Flexible-length Text Infilling for Discrete Diffusion Models

要約

離散拡散モデルは、自己回帰モデルと比較して、双方向コンテキストの使用、並列化可能な生成、柔軟なプロンプトなどの利点を提供する新しいクラスのテキストジェネレーターです。
ただし、離散拡散モデルの重大な制限は、地上の真実の位置データにアクセスすることなく浸透する柔軟な長さまたは柔軟なポジションテキストを実行できないことです。
\ textbf {ddot}(\ textbf {d} iscrete \ textbf {d} ifusion with \ textbf {o} ptimal \ textbf {t} ransport position coupling)を紹介します。
DDOTは、トークン値とトークン位置を共同で除去し、新しいサンプルレベルの最適輸送(OT)カップリングを採用しています。
この結合は、充填されたセグメントの位置と長さを動的に調整しながら、トークンの順序付けを保存します。
私たちの方法は、既存の個別のテキスト拡散法に直交しており、さまざまな前提条件のテキスト除去者と互換性があります。
1億語やYelpなどのテキスト充填ベンチマークに関する広範な実験は、DDOTがナイーブ拡散ベースラインを上回ることを示しています。
さらに、DDOTは、最先端の非自動性モデルと同等のパフォーマンスを達成し、トレーニングの効率と柔軟性の大幅な改善を可能にします。

要約(オリジナル)

Discrete diffusion models are a new class of text generators that offer advantages such as bidirectional context use, parallelizable generation, and flexible prompting compared to autoregressive models. However, a critical limitation of discrete diffusion models is their inability to perform flexible-length or flexible-position text infilling without access to ground-truth positional data. We introduce \textbf{DDOT} (\textbf{D}iscrete \textbf{D}iffusion with \textbf{O}ptimal \textbf{T}ransport Position Coupling), the first discrete diffusion model to overcome this challenge. DDOT jointly denoises token values and token positions, employing a novel sample-level Optimal Transport (OT) coupling. This coupling preserves relative token ordering while dynamically adjusting the positions and length of infilled segments, a capability previously missing in text diffusion. Our method is orthogonal to existing discrete text diffusion methods and is compatible with various pretrained text denoisers. Extensive experiments on text infilling benchmarks such as One-Billion-Word and Yelp demonstrate that DDOT outperforms naive diffusion baselines. Furthermore, DDOT achieves performance on par with state-of-the-art non-autoregressive models and enables significant improvements in training efficiency and flexibility.

arxiv情報

著者 Andrew Zhang,Anushka Sivakumar,Chiawei Tang,Chris Thomas
発行日 2025-06-16 15:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

要約

現在の最先端の非参照画像品質評価(NR-IQA)メソッドは、通常、すべての抽出された機能が関連すると仮定して、上流のセマンティックバックボーンネットワークからの機能抽出に依存しています。
ただし、すべての機能が有益であるわけではなく、一部の機能が有害である可能性があり、慎重な選択が必要である可能性があるという重要な観察結果を出します。
経験的には、小さな特徴の空間距離を持つ多くの画像ペアが非常に異なる品質スコアを持つことができることがわかります。これは、抽出された機能にかなりの量の品質に関係のあるノイズが含まれている可能性があることを示しています。
この問題に対処するために、敵対的な視点を使用して上流タスクから有害なセマンティックノイズ機能を削除するIQAメトリック(QFM-IQM)に一致する品質認識機能を提案します。
具体的には、QFM-IQMは、画像ペアを同様の品質スコアと一致させることにより、セマンティックノイズの区別機能を強化しますが、セマンティックの特徴は敵対的なセマンティックノイズとしてさまざまなもので、逆流ノイズの摂動に対する感度を低下させることにより、上流のタスクの特徴を適応的に調整します。
さらに、蒸留フレームワークを利用してデータセットを拡張し、モデルの一般化能力を向上させます。
私たちのアプローチは、8つの標準IQAデータセットで最先端のNR-IQAメソッドよりも優れたパフォーマンスを達成します。

要約(オリジナル)

The current state-of-the-art No-Reference Image Quality Assessment (NR-IQA) methods typically rely on feature extraction from upstream semantic backbone networks, assuming that all extracted features are relevant. However, we make a key observation that not all features are beneficial, and some may even be harmful, necessitating careful selection. Empirically, we find that many image pairs with small feature spatial distances can have vastly different quality scores, indicating that the extracted features may contain a significant amount of quality-irrelevant noise. To address this issue, we propose a Quality-Aware Feature Matching IQA Metric (QFM-IQM) that employs an adversarial perspective to remove harmful semantic noise features from the upstream task. Specifically, QFM-IQM enhances the semantic noise distinguish capabilities by matching image pairs with similar quality scores but varying semantic features as adversarial semantic noise and adaptively adjusting the upstream task’s features by reducing sensitivity to adversarial noise perturbation. Furthermore, we utilize a distillation framework to expand the dataset and improve the model’s generalization ability. Our approach achieves superior performance to the state-of-the-art NR-IQA methods on eight standard IQA datasets.

arxiv情報

著者 Xudong Li,Timin Gao,Runze Hu,Yan Zhang,Shengchuan Zhang,Xiawu Zheng,Jingyuan Zheng,Yunhang Shen,Ke Li,Yutao Liu,Pingyang Dai,Rongrong Ji
発行日 2025-06-16 15:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors

要約

ニューラルネットワークは、特にがんの検出と分類において、医療診断の標準的な手法となっています。
この作業では、磁気共鳴画像(MRI)およびコンピューター断層撮影(CT)スキャンのいくつかのデータセットで、Swin TransformerやMaxvitを含むVision Transformers Architecturesのパフォーマンスを評価します。
脳、肺、腎臓の腫瘍を備えた3つのトレーニングセットの画像を使用しました。
各データセットには、脳膠腫や髄膜腫から良性および悪性肺の状態、嚢胞や癌などの腎臓の異常に至るまで、さまざまな分類ラベルが含まれています。
この作業の目的は、各データセットにおけるニューラルネットワークの動作と、さまざまな画像のモダリティと腫瘍クラスを組み合わせることの利点を分析することです。
複合データセットと個々のデータセットでモデルを微調整することにより、いくつかの実験を設計しました。
結果は、SWINトランスが高精度を提供し、個々のデータセットで平均で最大99 \%、複合データセットで99.4 \%精度を達成することを明らかにしました。
この研究は、さまざまな画像のモダリティと機能へのトランスベースのモデルの適応性を強調しています。
ただし、限られた注釈付きデータや解釈可能性の問題を含む課題は続きます。
将来の作業は、他の画像のモダリティを組み込み、診断機能を強化することにより、この研究を拡大します。
これらのモデルを多様なデータセットに統合すると、精密医療の大幅な進歩を遂げると、より効率的で包括的なヘルスケアソリューションへの道が開かれます。

要約(オリジナル)

Neural networks have become the standard technique for medical diagnostics, especially in cancer detection and classification. This work evaluates the performance of Vision Transformers architectures, including Swin Transformer and MaxViT, in several datasets of magnetic resonance imaging (MRI) and computed tomography (CT) scans. We used three training sets of images with brain, lung, and kidney tumors. Each dataset includes different classification labels, from brain gliomas and meningiomas to benign and malignant lung conditions and kidney anomalies such as cysts and cancers. This work aims to analyze the behavior of the neural networks in each dataset and the benefits of combining different image modalities and tumor classes. We designed several experiments by fine-tuning the models on combined and individual datasets. The results revealed that the Swin Transformer provided high accuracy, achieving up to 99\% on average for individual datasets and 99.4\% accuracy for the combined dataset. This research highlights the adaptability of Transformer-based models to various image modalities and features. However, challenges persist, including limited annotated data and interpretability issues. Future work will expand this study by incorporating other image modalities and enhancing diagnostic capabilities. Integrating these models across diverse datasets could mark a significant advance in precision medicine, paving the way for more efficient and comprehensive healthcare solutions.

arxiv情報

著者 Óscar A. Martín,Javier Sánchez
発行日 2025-06-16 15:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Omni-AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented for Efficient Long Video Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、固定されたコンテキストウィンドウと弱い長期依存性モデリングにより、長いビデオに苦労しています。
ビデオの既存の検索能力(RAG)メソッドは、静的検索戦略を使用し、単純なクエリの効率性と複雑なタスクの情報損失をもたらします。
これに対処するために、軽量の意図分類器を使用してクエリの複雑さに基づいて検索の粒度を動的に適応させる新しいフレームワークであるAdavideoragを提案します。
当社のフレームワークでは、OMNI-Knowledgeインデックスモジュールを採用して、テキスト(キャプション、ASR、OCR)、視覚的機能、およびセマンティックグラフから階層データベースを構築し、タスク全体で最適なリソース割り当てを可能にします。
また、包括的な評価のためにHIVUベンチマークを紹介します。
実験は、既存のMLLMへのシームレスな統合により、長いビデオ理解の効率と精度の向上を示しています。
Adavideoragは、ビデオ分析における適応的検索のための新しいパラダイムを確立します。
コードはhttps://github.com/xzc-zju/adavideoragでオープンソーシングされます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) struggle with long videos due to fixed context windows and weak long-term dependency modeling. Existing Retrieval-Augmented Generation (RAG) methods for videos use static retrieval strategies, leading to inefficiencies for simple queries and information loss for complex tasks. To address this, we propose AdaVideoRAG, a novel framework that dynamically adapts retrieval granularity based on query complexity using a lightweight intent classifier. Our framework employs an Omni-Knowledge Indexing module to build hierarchical databases from text (captions, ASR, OCR), visual features, and semantic graphs, enabling optimal resource allocation across tasks. We also introduce the HiVU benchmark for comprehensive evaluation. Experiments demonstrate improved efficiency and accuracy for long-video understanding, with seamless integration into existing MLLMs. AdaVideoRAG establishes a new paradigm for adaptive retrieval in video analysis. Codes will be open-sourced at https://github.com/xzc-zju/AdaVideoRAG.

arxiv情報

著者 Zhucun Xue,Jiangning Zhang,Xurong Xie,Yuxuan Cai,Yong Liu,Xiangtai Li,Dacheng Tao
発行日 2025-06-16 15:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching

要約

事前に訓練された2D拡散モデルを3D資産に蒸留することで、テキストから3D合成の顕著な進歩が促進されています。
ただし、既存の方法は通常、スコア蒸留サンプリング(SDS)損失に依存しています。これには、非対称KLの発散が含まれます。これは、モードを求める行動を本質的に支持し、生成の多様性を制限する定式化です。
このペーパーでは、KLベースの目標をスコア暗黙のマッチング(SIM)損失に置き換える新しいテキストから3Dの生成フレームワークであるDive3Dを紹介します。
さらに、DIVE3Dは、統一された発散の観点の下で、拡散蒸留と報酬誘導最適化の両方を統合します。
このような再定式化は、SIMの損失とともに、テキストの調整、人間の好み、および全体的な視覚的忠実度を改善しながら、大幅に多様な3D出力をもたらします。
さまざまな2D対3DプロンプトにわたってDIVE3Dを検証し、多様性、フォトリアリズム、審美的な魅力など、定性的評価の以前の方法よりも一貫して優れていることがわかります。
さらに、GPTEVAL3Dベンチマークでのパフォーマンスを評価し、9つの最先端のベースラインと比較します。
DIVE3Dは、テキストアセットのアライメント、3Dの妥当性、テキスト – 幾何学の一貫性、テクスチャの品質、幾何学的な詳細など、定量的メトリックに関する強力な結果も達成されます。

要約(オリジナル)

Distilling pre-trained 2D diffusion models into 3D assets has driven remarkable advances in text-to-3D synthesis. However, existing methods typically rely on Score Distillation Sampling (SDS) loss, which involves asymmetric KL divergence–a formulation that inherently favors mode-seeking behavior and limits generation diversity. In this paper, we introduce Dive3D, a novel text-to-3D generation framework that replaces KL-based objectives with Score Implicit Matching (SIM) loss, a score-based objective that effectively mitigates mode collapse. Furthermore, Dive3D integrates both diffusion distillation and reward-guided optimization under a unified divergence perspective. Such reformulation, together with SIM loss, yields significantly more diverse 3D outputs while improving text alignment, human preference, and overall visual fidelity. We validate Dive3D across various 2D-to-3D prompts and find that it consistently outperforms prior methods in qualitative assessments, including diversity, photorealism, and aesthetic appeal. We further evaluate its performance on the GPTEval3D benchmark, comparing against nine state-of-the-art baselines. Dive3D also achieves strong results on quantitative metrics, including text-asset alignment, 3D plausibility, text-geometry consistency, texture quality, and geometric detail.

arxiv情報

著者 Weimin Bai,Yubo Li,Wenzheng Chen,Weijian Luo,He Sun
発行日 2025-06-16 15:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Adaptive Sensitivity Analysis for Robust Augmentation against Natural Corruptions in Image Segmentation

要約

画像セグメンテーションモデルで堅牢性を達成することは、ピクセルレベルの分類の微細な性質のために困難です。
これらのモデルは、多くのリアルタイム認識アプリケーションにとって重要であり、特に自律システムの野生の自然な腐敗に直面した場合に闘争します。
感度分析は、入力変数がモデルの出力にどのように影響するかを理解するのに役立ちますが、トレーニングデータにおける自然および制御不能な腐敗へのアプリケーションは計算的に高価です。
この作業では、自然の腐敗に対する堅牢性を高めるために、適応的で感度誘導された増強法を提示します。
当社の感度分析は平均して10倍速く実行され、以前の感度分析よりも約200倍のストレージが必要であり、モデルのない増強ポリシーのトレーニング中に実用的で飛行中の推定を可能にします。
最小限の微調整により、当社の感度誘導拡張法により、画像セグメンテーションにおける最先端のデータ増強技術と比較して、現実世界と合成データセットの両方で堅牢性が向上します。
この作業のコード実装は、https://github.com/laurayuzheng/sensaugにあります。

要約(オリジナル)

Achieving robustness in image segmentation models is challenging due to the fine-grained nature of pixel-level classification. These models, which are crucial for many real-time perception applications, particularly struggle when faced with natural corruptions in the wild for autonomous systems. While sensitivity analysis can help us understand how input variables influence model outputs, its application to natural and uncontrollable corruptions in training data is computationally expensive. In this work, we present an adaptive, sensitivity-guided augmentation method to enhance robustness against natural corruptions. Our sensitivity analysis on average runs 10x faster and requires about 200x less storage than previous sensitivity analysis, enabling practical, on-the-fly estimation during training for a model-free augmentation policy. With minimal fine-tuning, our sensitivity-guided augmentation method achieves improved robustness on both real-world and synthetic datasets compared to state-of-the-art data augmentation techniques in image segmentation. Code implementation for this work can be found at: https://github.com/laurayuzheng/SensAug.

arxiv情報

著者 Laura Zheng,Wenjie Wei,Tony Wu,Jacob Clements,Shreelekha Revankar,Andre Harrison,Yu Shen,Ming C. Lin
発行日 2025-06-16 15:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする