ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

要約

ILLUME+は、二重の視覚的トークン化と拡散デコーダを活用し、深い意味理解と忠実度の高い画像生成の両方を改善する。既存の統一モデルは、統一モデルにおける3つの基本的な機能、すなわち理解、生成、編集を同時に扱うことに苦労してきた。ChameleonやEMU3のようなモデルは画像の離散化にVQGANを利用しているが、深い意味的相互作用がないため、視覚理解タスクにおいてLLaVAのような専門モデルに遅れをとっている。これを軽減するために、LaViTとILLUMEはトークン化にセマンティックエンコーダを採用しているが、テクスチャの保存性が低いため、画像編集に苦労している。一方、Janusシリーズは、入力画像と出力画像の表現を切り離すため、インターリーブされた画像とテキストの理解と生成をシームレスに処理する能力が制限される。これに対してILLUME+は、マルチモーダルな理解と生成のための粗い画像から細かい画像への表現戦略を可能にしながら、細かいテクスチャとテキストに沿ったセマンティクスの両方を保持する、統一されたデュアルビジュアル・トークナイザー、DualViTokを導入する。さらに、生成品質の向上と効率的な超解像のために、画像のデトークナイザーとして拡散モデルを採用しています。ILLUME+は、統一されたMLLMの中で連続入力、離散出力の方式に従い、ビジョントークナイザー、MLLM、拡散デコーダー全体で動的な解像度をサポートする漸進的な学習手順を採用しています。この設計により、多様なタスクにおいて、文脈を考慮した柔軟で効率的な画像編集と生成が可能になる。ILLUME+ (3B)は、マルチモーダル理解、生成、編集ベンチマークにおいて、既存の統一MLLMや特殊モデルに対して競争力のある性能を示す。その強力な性能により、ILLUME+は将来のマルチモーダルアプリケーションのためのスケーラブルで汎用的な基盤を提供します。プロジェクトページ: https://illume-unified-mllm.github.io/.

要約(オリジナル)

We present ILLUME+ that leverages dual visual tokenization and a diffusion decoder to improve both deep semantic understanding and high-fidelity image generation. Existing unified models have struggled to simultaneously handle the three fundamental capabilities in a unified model: understanding, generation, and editing. Models like Chameleon and EMU3 utilize VQGAN for image discretization, due to the lack of deep semantic interaction, they lag behind specialist models like LLaVA in visual understanding tasks. To mitigate this, LaViT and ILLUME employ semantic encoders for tokenization, but they struggle with image editing due to poor texture preservation. Meanwhile, Janus series decouples the input and output image representation, limiting their abilities to seamlessly handle interleaved image-text understanding and generation. In contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which preserves both fine-grained textures and text-aligned semantics while enabling a coarse-to-fine image representation strategy for multimodal understanding and generation. Additionally, we employ a diffusion model as the image detokenizer for enhanced generation quality and efficient super-resolution. ILLUME+ follows a continuous-input, discrete-output scheme within the unified MLLM and adopts a progressive training procedure that supports dynamic resolution across the vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible and efficient context-aware image editing and generation across diverse tasks. ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs and specialized models across multimodal understanding, generation, and editing benchmarks. With its strong performance, ILLUME+ provides a scalable and versatile foundation for future multimodal applications. Project Page: https://illume-unified-mllm.github.io/.

arxiv情報

著者 Runhui Huang,Chunwei Wang,Junwei Yang,Guansong Lu,Yunlong Yuan,Jianhua Han,Lu Hou,Wei Zhang,Lanqing Hong,Hengshuang Zhao,Hang Xu
発行日 2025-04-03 16:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement はコメントを受け付けていません

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

要約

疎なビューから3Dシーンを復元することは、その本質的な非正規問題のために困難なタスクである。従来の手法では、この問題を軽減するための特殊な解決策(例えば、ジオメトリ正則化やフィードフォワード決定論的モデル)が開発されてきた。しかし、それでもなお、視覚情報が不十分な入力ビュー間の重なりが最小限であることによる性能劣化に悩まされている。幸いなことに、最近のビデオ生成モデルは、もっともらしい3D構造を持つビデオクリップを生成できるため、この課題への対処に有望である。事前に学習された大規模な映像拡散モデルを用いて、いくつかの先駆的な研究が映像生成モデルの可能性を追求し始め、疎なビューから3Dシーンを生成している。しかしながら、これらの研究は、推論時間の遅さと3D制約の欠如によって制限されており、非効率と、実世界の形状構造と一致しない再構成アーチファクトを引き起こしている。本論文では、動画から3Dへのギャップを埋める効率的で効果的なツールの構築を目指し、ワンステップで3Dシーンを生成するために動画拡散モデルを抽出するVideoSceneを提案する。具体的には、時間のかかる冗長な情報をリープするための3Dを意識したリープフロー蒸留戦略を設計し、推論中に最適なリープタイムステップを適応的に決定するための動的ノイズ除去ポリシーネットワークを学習する。広範な実験により、我々のVideoSceneは、従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果を達成し、将来のビデオから3Dへのアプリケーションのための効率的なツールとしての可能性を強調している。プロジェクトページ: https://hanyang-21.github.io/VideoScene

要約(オリジナル)

Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

arxiv情報

著者 Hanyang Wang,Fangfu Liu,Jiawei Chi,Yueqi Duan
発行日 2025-04-03 14:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step はコメントを受け付けていません

Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish

要約

大規模言語モデル(LLM)は、研究や社会全般においてますます重要なツールとなっている。LLMは、専門家にも一般人にも、世界中で定期的に使用されているが、主に英語圏のユーザーを念頭に開発されており、英語やその他の広く普及している言語で優れた性能を発揮する一方、ルクセンブルク語のようなリソースの少ない言語は優先度が低いと見なされている。この注目度の低さは、利用可能な評価ツールやデータセットの少なさにも反映されている。本研究では、ルクセンブルク語の評価ツールとしての言語能力試験の可能性を調査する。その結果、ChatGPT、Claude、DeepSeek-R1などの大規模なモデルは一般的に高いスコアを達成する一方、小規模なモデルは弱いパフォーマンスを示すことがわかった。また、このような言語能力試験の成績は、他の自然言語処理タスクの成績を予測するために利用できることもわかった。

要約(オリジナル)

Large Language Models (LLMs) have become an increasingly important tool in research and society at large. While LLMs are regularly used all over the world by experts and lay-people alike, they are predominantly developed with English-speaking users in mind, performing well in English and other wide-spread languages while less-resourced languages such as Luxembourgish are seen as a lower priority. This lack of attention is also reflected in the sparsity of available evaluation tools and datasets. In this study, we investigate the viability of language proficiency exams as such evaluation tools for the Luxembourgish language. We find that large models such as ChatGPT, Claude and DeepSeek-R1 typically achieve high scores, while smaller models show weak performances. We also find that the performances in such language exams can be used to predict performances in other NLP tasks.

arxiv情報

著者 Cedric Lothritz,Jordi Cabot
発行日 2025-04-03 11:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish はコメントを受け付けていません

InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation

要約

文脈内学習(In-Context Learning: ICL)は大規模言語モデル(Large Language Model: LLM)にとって重要であるが、その有効性は有限な文脈ウィンドウ、特に超長文文脈によって制約される。これを克服するために、我々は、LLMにおけるコンテキストとパラメータを、人間の認知システムにおける短期記憶と長期記憶に類似させたフレームワークであるInfiniteICLを導入し、一時的なコンテキスト知識を永続的なパラメータ更新に変換することに焦点を当てる。このアプローチは、メモリ使用量を大幅に削減し、様々な入力の長さに対してロバストな性能を維持し、理論的には、コンテキスト知識の誘発、選択、統合の原理により、無限のコンテキスト統合を可能にする。評価により、本手法はコンテキスト長を90%削減する一方で、事実想起、根拠推論、技能習得の各課題において、フルコンテキストプロンプトの平均103%の性能を達成することが実証された。また、複雑な実世界のコンテキスト(2Mトークンまでの長さ)に対して逐次的なマルチターン変換を行った場合、我々のアプローチは、元のコンテキストのわずか0.4%しか使用せずに、フルコンテキストプロンプトを上回る。これらの結果は、InfiniteICLが、従来のコンテキストウィンドウサイズの制限を打破することにより、LLMのスケーラビリティと効率を向上させる可能性があることを強調している。

要約(オリジナル)

In-context learning (ICL) is critical for large language models (LLMs), but its effectiveness is constrained by finite context windows, particularly in ultra-long contexts. To overcome this, we introduce InfiniteICL, a framework that parallels context and parameters in LLMs with short- and long-term memory in human cognitive systems, focusing on transforming temporary context knowledge into permanent parameter updates. This approach significantly reduces memory usage, maintains robust performance across varying input lengths, and theoretically enables infinite context integration through the principles of context knowledge elicitation, selection, and consolidation. Evaluations demonstrate that our method reduces context length by 90% while achieving 103% average performance of full-context prompting across fact recall, grounded reasoning, and skill acquisition tasks. When conducting sequential multi-turn transformations on complex, real-world contexts (with length up to 2M tokens), our approach surpasses full-context prompting while using only 0.4% of the original contexts. These findings highlight InfiniteICL’s potential to enhance the scalability and efficiency of LLMs by breaking the limitations of conventional context window sizes.

arxiv情報

著者 Bowen Cao,Deng Cai,Wai Lam
発行日 2025-04-03 08:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation はコメントを受け付けていません

Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries

要約

自動車のインターネット(IoV)は、高度な侵入検知システムを必要とする可能性のある困難なサイバーセキュリティ攻撃に直面する可能性があり、迅速な開発と対応システムが必要となる。本研究では、IoVの脅威検知環境で使用される機械学習モデルに求められる速度と効率に焦点を当て、従来のCPUベースの実装(scikit-learn)と比較したGPUアクセラレーションライブラリ(cuML)の性能上の利点を調査する。実施された包括的な評価では、3つの異なるIoVセキュリティデータセット(OTIDS、GIDS、CICIoV2024)に対して、4つの機械学習アプローチ(ランダムフォレスト、KNN、ロジスティック回帰、XGBoost)が採用されています。その結果、GPUアクセラレーションによる実装では、従来のCPU処理と比較して、学習時間が最大159分の1に短縮され、予測速度が最大95倍高速化されるなど、計算効率が劇的に向上することが実証されました。この驚くべき性能の飛躍的向上により、研究者やセキュリティ専門家は、今日のコネクテッド・ビークル・ネットワークにおける緊急のリアルタイム・セキュリティ要求に応える、より高速で効果的な脅威検知システムの構築にGPUアクセラレーションを活用できるようになります。

要約(オリジナル)

The Internet of Vehicles (IoV) may face challenging cybersecurity attacks that may require sophisticated intrusion detection systems, necessitating a rapid development and response system. This research investigates the performance advantages of GPU-accelerated libraries (cuML) compared to traditional CPU-based implementations (scikit-learn), focusing on the speed and efficiency required for machine learning models used in IoV threat detection environments. The comprehensive evaluations conducted employ four machine learning approaches (Random Forest, KNN, Logistic Regression, XGBoost) across three distinct IoV security datasets (OTIDS, GIDS, CICIoV2024). Our findings demonstrate that GPU-accelerated implementations dramatically improved computational efficiency, with training times reduced by a factor of up to 159 and prediction speeds accelerated by up to 95 times compared to traditional CPU processing, all while preserving detection accuracy. This remarkable performance breakthrough empowers researchers and security specialists to harness GPU acceleration for creating faster, more effective threat detection systems that meet the urgent real-time security demands of today’s connected vehicle networks.

arxiv情報

著者 Furkan Çolhak,Hasan Coşkun,Tsafac Nkombong Regine Cyrille,Tedi Hoxa,Mert İlhan Ecevit,Mehmet Nafiz Aydın
発行日 2025-04-03 08:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries はコメントを受け付けていません

GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance

要約

大規模かつ高い時空間分解能での正確な地上バイオマス(AGB)マッピングは、気候モデリングから生物多様性評価、持続可能なサプライチェーンモニタリングまで、幅広い用途に不可欠である。現在、きめ細かいAGBマッピングは、通常、地域スケールに限定された高価な空中レーザースキャニング取得キャンペーンに依存している。ESAのCCIマップのようなイニシアチブは、多様なスペースボーン・センサーから、より粗い解像度でグローバルなバイオマス情報を生成しようとしている。全球的な高解像度(HR)マッピングを可能にするために、ESAのSentinel-1/2画像のようなHR衛星観測からAGBを回帰することを提案する研究がいくつかある。我々は、HR衛星観測と既存の低解像度(LR)バイオマス製品の両方を活用することで、HR AGB推定に取り組む新しい方法を提案する。我々はこの問題をガイド付き超解像(GSR)と名付け、100$から10$ mの解像度のLRバイオマスマップ(ソース)を、補助的なHR共登録衛星画像(ガイド)を用いてアップサンプリングすることを目指す。公開されているBioMasstersデータセットを用いて、衛星画像からの直接回帰に対して、超解像AGBマップをガイダンスの有無で比較した。マルチスケールガイダンス(MSG)は、回帰($-780$ t/ha RMSE)と知覚($+2.0$ dB PSNR)の両指標において直接回帰を上回り、大きな計算オーバーヘッドを伴わずに、高バイオマス値をよりよく捉えることができる。興味深いことに、元々設計されたRGB+Depthの設定とは異なり、我々のAGB GSRアプローチが最も良いパフォーマンスを示したのは、ガイド画像のテクスチャを最も保存したものであった。我々の結果は、スケールでの正確なHRバイオマスマッピングのためにGSRフレームワークを採用する強力なケースとなる。我々のコードとモデルの重みは公開されている(https://github.com/kaankaramanofficial/GSR4B)。

要約(オリジナル)

Accurate Above-Ground Biomass (AGB) mapping at both large scale and high spatio-temporal resolution is essential for applications ranging from climate modeling to biodiversity assessment, and sustainable supply chain monitoring. At present, fine-grained AGB mapping relies on costly airborne laser scanning acquisition campaigns usually limited to regional scales. Initiatives such as the ESA CCI map attempt to generate global biomass products from diverse spaceborne sensors but at a coarser resolution. To enable global, high-resolution (HR) mapping, several works propose to regress AGB from HR satellite observations such as ESA Sentinel-1/2 images. We propose a novel way to address HR AGB estimation, by leveraging both HR satellite observations and existing low-resolution (LR) biomass products. We cast this problem as Guided Super-Resolution (GSR), aiming at upsampling LR biomass maps (sources) from $100$ to $10$ m resolution, using auxiliary HR co-registered satellite images (guides). We compare super-resolving AGB maps with and without guidance, against direct regression from satellite images, on the public BioMassters dataset. We observe that Multi-Scale Guidance (MSG) outperforms direct regression both for regression ($-780$ t/ha RMSE) and perception ($+2.0$ dB PSNR) metrics, and better captures high-biomass values, without significant computational overhead. Interestingly, unlike the RGB+Depth setting they were originally designed for, our best-performing AGB GSR approaches are those that most preserve the guide image texture. Our results make a strong case for adopting the GSR framework for accurate HR biomass mapping at scale. Our code and model weights are made publicly available (https://github.com/kaankaramanofficial/GSR4B).

arxiv情報

著者 Kaan Karaman,Yuchang Jiang,Damien Robert,Vivien Sainte Fare Garnot,Maria João Santos,Jan Dirk Wegner
発行日 2025-04-03 09:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance はコメントを受け付けていません

Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning

要約

我々は、現実的なデータ、特に最適でない行動方針によって収集された非専門家データを用いたオフライン強化学習の課題に取り組む。この問題に取り組むために、我々はOutcome-Driven Action Flexibility (ODAF)と呼ばれる新しい手法を導入し、行動ポリシーの経験的行動分布への依存を低減することで、それらの悪いデモンストレーションの悪影響を低減することを目指す。具体的には、オフラインデータに基づく行動の尤度のみに依存するのではなく、その結果が安全要件を満たすかどうか、つまり状態サポート領域内に留まるかどうかに従って行動を評価することにより、分布シフトに対処する新しい保守的報酬メカニズムを開発する。理論的な正当性の他に、広く使用されているMuJoCoと様々な迷路ベンチマークに関する経験的な証拠を提供し、不確実性の定量化技術を用いて実装された我々のODAF法が、現実的な非専門的データから学習するエージェントの能力を向上させながら、「軌道のつなぎ目」を改善するために、未知の遷移を効果的に許容することを実証する。

要約(オリジナル)

We address the challenge of offline reinforcement learning using realistic data, specifically non-expert data collected through sub-optimal behavior policies. Under such circumstance, the learned policy must be safe enough to manage distribution shift while maintaining sufficient flexibility to deal with non-expert (bad) demonstrations from offline data.To tackle this issue, we introduce a novel method called Outcome-Driven Action Flexibility (ODAF), which seeks to reduce reliance on the empirical action distribution of the behavior policy, hence reducing the negative impact of those bad demonstrations.To be specific, a new conservative reward mechanism is developed to deal with distribution shift by evaluating actions according to whether their outcomes meet safety requirements – remaining within the state support area, rather than solely depending on the actions’ likelihood based on offline data.Besides theoretical justification, we provide empirical evidence on widely used MuJoCo and various maze benchmarks, demonstrating that our ODAF method, implemented using uncertainty quantification techniques, effectively tolerates unseen transitions for improved ‘trajectory stitching,’ while enhancing the agent’s ability to learn from realistic non-expert data.

arxiv情報

著者 Ke Jiang,Wen Jiang,Yao Li,Xiaoyang Tan
発行日 2025-04-03 01:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning はコメントを受け付けていません

Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks

要約

教師なし領域適応(UDA)フレームワークは、クリーンデータ上の3次元点群セマンティックセグメンテーションモデルに対して、優れた汎化能力を示してきた。しかし、既存の研究では、ソースドメイン自体が侵害された場合の敵対的なロバスト性を見落としている。UDAフレームワークの頑健性を包括的に調査するために、我々はまず、点群表面へのわずかな摂動だけでデータセットを著しく汚染できる、敵対的な点群生成攻撃を設計する。それに基づいて、汚染されたLiDAR点群を合成した新しいデータセットAdvSynLiDARを提案する。生成された汚染データを用いて、我々はさらに対策としてAdversarial Adaptation Framework (AAF)を開発する。具体的には、キーポイントセンシティブ(KPS)損失をロバストロングテール損失(RLT損失)へと拡張し、デコーダブランチを利用することで、我々のアプローチは、事前学習フェーズにおいてモデルがロングテールクラスにフォーカスすることを可能にし、適応フェーズにおいて点群構造を復元するために高信頼度のデコードされた点群情報を活用する。我々のAAF手法をAdvSynLiDARデータセットで評価した結果、我々のAAF手法は、3D点群セグメンテーションアプリケーションにおけるUDAのソース敵対的摂動下での性能劣化を軽減できることが実証された。

要約(オリジナル)

Unsupervised domain adaptation (UDA) frameworks have shown good generalization capabilities for 3D point cloud semantic segmentation models on clean data. However, existing works overlook adversarial robustness when the source domain itself is compromised. To comprehensively explore the robustness of the UDA frameworks, we first design a stealthy adversarial point cloud generation attack that can significantly contaminate datasets with only minor perturbations to the point cloud surface. Based on that, we propose a novel dataset, AdvSynLiDAR, comprising synthesized contaminated LiDAR point clouds. With the generated corrupted data, we further develop the Adversarial Adaptation Framework (AAF) as the countermeasure. Specifically, by extending the key point sensitive (KPS) loss towards the Robust Long-Tail loss (RLT loss) and utilizing a decoder branch, our approach enables the model to focus on long-tail classes during the pre-training phase and leverages high-confidence decoded point cloud information to restore point cloud structures during the adaptation phase. We evaluated our AAF method on the AdvSynLiDAR dataset, where the results demonstrate that our AAF method can mitigate performance degradation under source adversarial perturbations for UDA in the 3D point cloud segmentation application.

arxiv情報

著者 Haosheng Li,Junjie Chen,Yuecong Xu,Kemi Ding
発行日 2025-04-03 02:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks はコメントを受け付けていません

Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約

鳥瞰(BEV)知覚は、複数の視点画像を融合するための統一的な表現を提供し、予測や計画などの幅広い自律走行タスクを可能にするため、大きな注目を集めている。最近の最先端モデルは、投影ベースの手法を利用しており、BEV知覚をクエリ学習として定式化し、明示的な奥行き推定を回避している。このパラダイムでは有望な進歩が見られるが、不確実性モデリングの欠如と高価な計算要件のため、実世界への応用にはまだ不十分である。本研究では、非投影に基づく手法、特にLSS(Lift-Splat-Shoot)パラダイムを再検討し、奥行きの非確実性モデリングにより強化した、不確実性を考慮した新しいBEV知覚フレームワークであるGaussianLSSを紹介する。GaussianLSSは、ソフトな奥行き平均を学習し、奥行き分布の分散を計算することで、空間分散を表現する。次に、奥行き分布を3Dガウシアンに変換し、それらをラスタライズして、不確実性を考慮したBEV特徴を構築する。nuScenesデータセットでGaussianLSSを評価し、非投影ベースの手法と比較して最先端の性能を達成した。特に、GaussianLSSは、投影ベースの手法と比較して2.5倍高速に動作し、メモリ効率において0.3倍少ないメモリを使用しながら、わずか0.4%のIoU差で競争力のある性能を達成し、大きな利点を提供する。

要約(オリジナル)

Bird’s-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.

arxiv情報

著者 Shu-Wei Lu,Yi-Hsuan Tsai,Yi-Ting Chen
発行日 2025-04-03 07:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting はコメントを受け付けていません

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

要約

セグメンテーション、深さ、エッジなどのさまざまなモダリティの複数の空間制御入力に基づいて世界シミュレーションを生成できる条件付き世界生成モデルであるCosmos-Transferを紹介します。
設計では、空間条件スキームは適応性があり、カスタマイズ可能です。
さまざまな空間位置で異なる条件付き入力を異なる重み付けすることができます。
これにより、非常に制御可能な世界生成が可能になり、SIM2REALを含むさまざまな世界から世界への転送ユースケースでの使用が見つかります。
提案されたモデルを分析するために広範な評価を実施し、ロボット工学SIM2REALや自律車両データの濃縮など、物理AIのアプリケーションを実証します。
さらに、NVIDIA GB200 NVL72ラックを使用してリアルタイムの世界生成を達成するための推論スケーリング戦略を実証します。
この分野での研究開発を加速するために、https://github.com/nvidia-cosmos/cosmos-transfer1でモデルとコードをオープンソーシングします。

要約(オリジナル)

We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.

arxiv情報

著者 NVIDIA,:,Hassan Abu Alhaija,Jose Alvarez,Maciej Bala,Tiffany Cai,Tianshi Cao,Liz Cha,Joshua Chen,Mike Chen,Francesco Ferroni,Sanja Fidler,Dieter Fox,Yunhao Ge,Jinwei Gu,Ali Hassani,Michael Isaev,Pooya Jannaty,Shiyi Lan,Tobias Lasser,Huan Ling,Ming-Yu Liu,Xian Liu,Yifan Lu,Alice Luo,Qianli Ma,Hanzi Mao,Fabio Ramos,Xuanchi Ren,Tianchang Shen,Xinglong Sun,Shitao Tang,Ting-Chun Wang,Jay Wu,Jiashu Xu,Stella Xu,Kevin Xie,Yuchong Ye,Xiaodong Yang,Xiaohui Zeng,Yu Zeng
発行日 2025-04-01 21:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control はコメントを受け付けていません