Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter

要約

私たちは、ロボットがターゲットオブジェクトを開いたクラッターで把握し、指定された場所に移動する必要がある言語で条件付けられたピックと場所のタスクを研究します。
いくつかのアプローチでは、Vision Foundationモデルの機能を使用してエンドツーエンドポリシーを学習し、大きなデータセットが必要です。
その他は、ゼロショット設定でファンデーションモデルを組み合わせて、カスケードエラーに苦しんでいます。
さらに、彼らは主にビジョンと言語の基礎モデルを活用しており、アクション事前に焦点を当てています。
このホワイトペーパーでは、ビジョン、言語、行動から基礎の事前を統合することにより、効果的なポリシーを開発することを目指しています。
$^2 $を提案します。これは、1つの注意レイヤーを学習することにより、無条件のアクションプライエアを3Dビジョン言語プライアーと整列させるアクション事前アライメントメソッドを提案します。
アライメント定式化により、当社のポリシーは、より少ないデータでトレーニングし、ゼロショットの一般化機能を維持できます。
ピックと場所の両方のアクションの共有ポリシーが各タスクのパフォーマンスを向上させることを示し、アクションのマルチモーダル性に対応するためのポリシー適応スキームを導入します。
シミュレーションと現実世界での広範な実験は、私たちのポリシーが、散らかったピックと場所の両方のタスクの両方でより少ないステップでより高いタスクの成功率を達成し、目に見えないオブジェクトと言語指示に効果的に一般化することを示しています。

要約(オリジナル)

We study the task of language-conditioned pick and place in clutter, where a robot should grasp a target object in open clutter and move it to a specified place. Some approaches learn end-to-end policies with features from vision foundation models, requiring large datasets. Others combine foundation models in a zero-shot setting, suffering from cascading errors. In addition, they primarily leverage vision and language foundation models, focusing less on action priors. In this paper, we aim to develop an effective policy by integrating foundation priors from vision, language, and action. We propose A$^2$, an action prior alignment method that aligns unconditioned action priors with 3D vision-language priors by learning one attention layer. The alignment formulation enables our policy to train with less data and preserve zero-shot generalization capabilities. We show that a shared policy for both pick and place actions enhances the performance for each task, and introduce a policy adaptation scheme to accommodate the multi-modal nature of actions. Extensive experiments in simulation and the real-world show that our policy achieves higher task success rates with fewer steps for both pick and place tasks in clutter, effectively generalizing to unseen objects and language instructions.

arxiv情報

著者 Kechun Xu,Xunlong Xia,Kaixuan Wang,Yifei Yang,Yunxuan Mao,Bing Deng,Rong Xiong,Yue Wang
発行日 2025-03-12 14:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter はコメントを受け付けていません

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

要約

人間のポーズ推定方法は、孤立した人々にはうまく機能しますが、複数のボディに近さのシナリオに苦労しています。
以前の研究は、検出された境界ボックスまたはキーポイントによるポーズ推定を条件付けすることにより、この問題に対処していますが、インスタンスマスクを見落としています。
境界ボックス、インスタンスマスク、ポーズの相互の一貫性を繰り返し実施することを提案します。
導入されたBBOX-MASK-POSE(BMP)メソッドは、閉ループで互いの出力を改善する3つの特殊なモデルを使用します。
すべてのモデルは相互条件付けに適合しており、マルチボディシーンの堅牢性が向上します。
新しいマスク条件付けされたポーズ推定モデルであるMaskposeは、Ochumanのトップダウンアプローチの中で最適です。
BBOX-MASK-POSEは、3つのタスクすべてのOchuman DatasetにSOTAを押します – 検出、インスタンスセグメンテーション、およびポーズ推定。
また、ココポーズの推定でSOTAパフォーマンスを達成します。
この方法は、大きなインスタンスが重複するシーンで特に優れており、ベースライン検出器よりも39%の検出を改善します。
小さな専門モデルとランタイムが高速化すると、BMPは大規模な人間中心の基礎モデルに代わる効果的な代替品です。
コードとモデルは、https://mirapurkrabek.github.io/bbox-mask-poseで入手できます。

要約(オリジナル)

Human pose estimation methods work well on isolated people but struggle with multiple-bodies-in-proximity scenarios. Previous work has addressed this problem by conditioning pose estimation by detected bounding boxes or keypoints, but overlooked instance masks. We propose to iteratively enforce mutual consistency of bounding boxes, instance masks, and poses. The introduced BBox-Mask-Pose (BMP) method uses three specialized models that improve each other’s output in a closed loop. All models are adapted for mutual conditioning, which improves robustness in multi-body scenes. MaskPose, a new mask-conditioned pose estimation model, is the best among top-down approaches on OCHuman. BBox-Mask-Pose pushes SOTA on OCHuman dataset in all three tasks – detection, instance segmentation, and pose estimation. It also achieves SOTA performance on COCO pose estimation. The method is especially good in scenes with large instances overlap, where it improves detection by 39% over the baseline detector. With small specialized models and faster runtime, BMP is an effective alternative to large human-centered foundational models. Code and models are available on https://MiraPurkrabek.github.io/BBox-Mask-Pose.

arxiv情報

著者 Miroslav Purkrabek,Jiri Matas
発行日 2025-03-12 14:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle はコメントを受け付けていません

COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing

要約

ゼロショットハッシュ(ZSH)は、大規模な検索シナリオでの効率と一般化により、優れた成功を示しています。
かなりの成功が達成されていますが、緊急の制限はまだ存在します。
既存の作品は、見た目のクラスと非誘導クラスの間に効果的な転送可能性を持つ表現と属性の局所関係を無視します。
また、連続価値の属性は完全に活用されていません。
これに応じて、Comaeという名前のZSHの包括的な属性探査を実施します。これは、3つの細心の注意を払って設計された探索、すなわち、ポイントワイズ、ペアごとの、クラスごとの一貫性の制約を通じて、見られたクラスから目に見えないクラスまでの関係を描いています。
提案された属性プロトタイプネットワークから属性を回帰することにより、Comaeは視覚属性に関連するローカル機能を学習します。
その後、Comaeは、インスタンスに依存しない最適化ではなく、属性のコンテキストを包括的に描写するために対照的な学習を利用します。
最後に、クラスごとの制約は、ハッシュコード、画像表現、視覚属性をより効果的に学習するように設計されています。
人気のあるZSHデータセットでの実験結果は、Comaeが、特に目に見えないラベルクラスが多数あるシナリオで、最先端のハッシュテクニックよりも優れていることを示しています。

要約(オリジナル)

Zero-shot hashing (ZSH) has shown excellent success owing to its efficiency and generalization in large-scale retrieval scenarios. While considerable success has been achieved, there still exist urgent limitations. Existing works ignore the locality relationships of representations and attributes, which have effective transferability between seeable classes and unseeable classes. Also, the continuous-value attributes are not fully harnessed. In response, we conduct a COMprehensive Attribute Exploration for ZSH, named COMAE, which depicts the relationships from seen classes to unseen ones through three meticulously designed explorations, i.e., point-wise, pair-wise and class-wise consistency constraints. By regressing attributes from the proposed attribute prototype network, COMAE learns the local features that are relevant to the visual attributes. Then COMAE utilizes contrastive learning to comprehensively depict the context of attributes, rather than instance-independent optimization. Finally, the class-wise constraint is designed to cohesively learn the hash code, image representation, and visual attributes more effectively. Experimental results on the popular ZSH datasets demonstrate that COMAE outperforms state-of-the-art hashing techniques, especially in scenarios with a larger number of unseen label classes.

arxiv情報

著者 Yuqi Li,Qingqing Long,Yihang Zhou,Meng Xiao,Ran Zhang,Zhiyuan Ning,Zhihong Zhu,Xuezhi Wang,Yuanchun Zhou
発行日 2025-03-12 14:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing はコメントを受け付けていません

RS2V-L: Vehicle-Mounted LiDAR Data Generation from Roadside Sensor Observations

要約

洗練された制御コマンドを直接生成してマルチモーダル感覚データを処理するエンドツーエンドの自律駆動ソリューションは、自律運転研究の支配的なパラダイムになりました。
ただし、これらのアプローチは主にモデルトレーニングと最適化のための単一車両データ収集に依存しており、高いデータ収集と注釈コスト、重要な運転シナリオの希少性、モデルの一般化を妨げる断片化されたデータセットなどの重要な課題をもたらします。
これらの制限を緩和するために、RS2V-Lを導入します。RS2V-Lは、路傍センサーの観測から車両に取り付けられたLIDARデータを再構築および合成するための新しいフレームワークです。
具体的には、我々の方法では、ターゲットビークルの相対ポーズを活用することにより、道端のライダー点雲を車両に取り付けられたライダー座標系に変換します。
その後、高忠実度の車両に取り付けられたLIDARデータは、仮想LIDARモデリング、ポイントクラウド分類、および再サンプリング技術を通じて合成されます。
私たちの知る限り、これは道端のセンサー入力から車両に取り付けられたLIDARデータを再構築する最初のアプローチです。
広範な実験的評価は、生成されたデータをモデルトレーニングに組み込むことを、Kitti Dataset-Enhances 3Dオブジェクト検出精度を\ Text {30 \%} over {30 \%}で組み込み、エンドツーエンドの自動駆動データ生成の効率を大きくすることで改善することを示しています。
これらの調査結果は、提案された方法の有効性を強く検証し、自律運転モデル​​の堅牢性を改善しながら、高価な車両に取り付けられたデータ収集への依存を減らす可能性を強調しています。

要約(オリジナル)

End-to-end autonomous driving solutions, which process multi-modal sensory data to directly generate refined control commands, have become a dominant paradigm in autonomous driving research. However, these approaches predominantly depend on single-vehicle data collection for model training and optimization, resulting in significant challenges such as high data acquisition and annotation costs, the scarcity of critical driving scenarios, and fragmented datasets that impede model generalization. To mitigate these limitations, we introduce RS2V-L, a novel framework for reconstructing and synthesizing vehicle-mounted LiDAR data from roadside sensor observations. Specifically, our method transforms roadside LiDAR point clouds into the vehicle-mounted LiDAR coordinate system by leveraging the target vehicle’s relative pose. Subsequently, high-fidelity vehicle-mounted LiDAR data is synthesized through virtual LiDAR modeling, point cloud classification, and resampling techniques. To the best of our knowledge, this is the first approach to reconstruct vehicle-mounted LiDAR data from roadside sensor inputs. Extensive experimental evaluations demonstrate that incorporating the generated data into model training-complementing the KITTI dataset-enhances 3D object detection accuracy by over \text{30\%} while improving the efficiency of end-to-end autonomous driving data generation by more than an order of magnitude. These findings strongly validate the effectiveness of the proposed method and underscore its potential in reducing dependence on costly vehicle-mounted data collection while improving the robustness of autonomous driving models.

arxiv情報

著者 Ruidan Xing,Runyi Huang,Qing Xu,Lei He
発行日 2025-03-12 14:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RS2V-L: Vehicle-Mounted LiDAR Data Generation from Roadside Sensor Observations はコメントを受け付けていません

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

要約

スケーラブルベクトルグラフィック(SVG)は、汎用性の高いグラフィックスに不可欠なXMLベースの形式であり、解像度の独立性とスケーラビリティを提供します。
ラスター画像とは異なり、SVGは幾何学的な形状を使用し、CSSおよびJavaScriptを介したインタラクティブ性、アニメーション、操作をサポートします。
現在のSVG生成方法は、高い計算コストと複雑さに関連する課題に直面しています。
対照的に、人間のデザイナーは、効率的なSVG作成のためにコンポーネントベースのツールを使用します。
これに触発されたSVGBuilderは、テキスト入力から高品質の色のSVGを生成するためのコンポーネントベースのオートリーレッシブモデルを導入しています。
計算オーバーヘッドを大幅に削減し、従来の方法と比較して効率を向上させます。
私たちのモデルは、最適化ベースのアプローチよりも最大604倍高速でSVGを生成します。
既存のSVGデータセットの制限に対処し、調査をサポートするために、100,000のグラフィックスで構成される色付きSVGの最初の大規模なデータセットであるColorsVG-100Kを紹介します。
このデータセットは、SVG生成モデルの色情報のギャップを埋め、モデルトレーニングの多様性を高めます。
最先端のモデルに対する評価は、実際のアプリケーションでのSVGBuilderの優れたパフォーマンスを示しており、複雑なSVGグラフィックを生成する効率と品質を強調しています。

要約(オリジナル)

Scalable Vector Graphics (SVG) are essential XML-based formats for versatile graphics, offering resolution independence and scalability. Unlike raster images, SVGs use geometric shapes and support interactivity, animation, and manipulation via CSS and JavaScript. Current SVG generation methods face challenges related to high computational costs and complexity. In contrast, human designers use component-based tools for efficient SVG creation. Inspired by this, SVGBuilder introduces a component-based, autoregressive model for generating high-quality colored SVGs from textual input. It significantly reduces computational overhead and improves efficiency compared to traditional methods. Our model generates SVGs up to 604 times faster than optimization-based approaches. To address the limitations of existing SVG datasets and support our research, we introduce ColorSVG-100K, the first large-scale dataset of colored SVGs, comprising 100,000 graphics. This dataset fills the gap in color information for SVG generation models and enhances diversity in model training. Evaluation against state-of-the-art models demonstrates SVGBuilder’s superior performance in practical applications, highlighting its efficiency and quality in generating complex SVG graphics.

arxiv情報

著者 Zehao Chen,Rong Pan
発行日 2025-03-12 14:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers はコメントを受け付けていません

SuperCarver: Texture-Consistent 3D Geometry Super-Resolution for High-Fidelity Surface Detail Generation

要約

高精度3Dメッシュ資産の従来の生産ワークフローには、専門のモデラーによる手動の彫刻の面倒で面倒なプロセスが必要です。
近年、AI-Powered 3Dコンテンツの作成における顕著な進歩が目撃されています。
ただし、最新の最先端はすでにもっともらしい構造と画像やテキストのプロンプトから複雑な外観を生成することができますが、実際のメッシュ表面は通常、滑らかであり、幾何学的な詳細を欠いています。
このペーパーでは、特定の粗いメッシュにテクスチャに一貫性のある表面の詳細を追加するために特に調整された3Dジオメトリスーパー解像度フレームワークであるスーパーカーバーを紹介します。
技術的には、複数の視点から元のテクスチャーメッシュを画像ドメインにレンダリングすることから始めます。
幾何学的なディテール生成を実現するために、ペアの低ポリおよび高ポリ正常レンダリングの慎重にキュレーションされたデータセットで微調整された決定論的な事前誘導正常拡散モデルを開発します。
潜在的に不完全な通常のマップ予測からメッシュ構造を最適化するために、距離フィールドの変形に基づいて、シンプルで効果的なノイズ耐性逆レンダリングスキームを設計します。
広範な実験では、スーパーカーバーが特定のテクスチャーの外観によって描かれているように現実的で表現力のある表面の詳細を生成し、大量の時代遅れの低品質資産を自動的にアップグレードし、実際のアプリケーションで高品質のメッシュ生産の反復サイクルを短縮するための強力なツールにすることが示されています。

要約(オリジナル)

Traditional production workflow of high-precision 3D mesh assets necessitates a cumbersome and laborious process of manual sculpting by specialized modelers. The recent years have witnessed remarkable advances in AI-empowered 3D content creation. However, although the latest state-of-the-arts are already capable of generating plausible structures and intricate appearances from images or text prompts, the actual mesh surfaces are typically over-smoothing and lack geometric details. This paper introduces SuperCarver, a 3D geometry super-resolution framework particularly tailored for adding texture-consistent surface details to given coarse meshes. Technically, we start by rendering the original textured mesh into the image domain from multiple viewpoints. To achieve geometric detail generation, we develop a deterministic prior-guided normal diffusion model fine-tuned on a carefully curated dataset of paired low-poly and high-poly normal renderings. To optimize mesh structures from potentially imperfect normal map predictions, we design a simple yet effective noise-resistant inverse rendering scheme based on distance field deformation. Extensive experiments show that SuperCarver generates realistic and expressive surface details as depicted by specific texture appearances, making it a powerful tool for automatically upgrading massive outdated low-quality assets and shortening the iteration cycle of high-quality mesh production in practical applications.

arxiv情報

著者 Qijian Zhang,Xiaozheng Jian,Xuan Zhang,Wenping Wang,Junhui Hou
発行日 2025-03-12 14:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SuperCarver: Texture-Consistent 3D Geometry Super-Resolution for High-Fidelity Surface Detail Generation はコメントを受け付けていません

Astrea: A MOE-based Visual Understanding Model with Progressive Alignment

要約

混合物(MOE)アーキテクチャに基づくビジョン言語モデル(VLM)は、マルチモーダル理解における重要なパラダイムとして浮上しており、視覚的情報と言語情報を統合するための強力なフレームワークを提供しています。
ただし、タスクの複雑さと多様性の増加は、不均一な視覚専門家全体で負荷分散を調整する上で重要な課題を提示します。そこでは、ある専門家のパフォーマンスを最適化することがしばしば他の能力を損ないます。
タスクの不均一性と専門家の負荷の不均衡に対処するために、進歩的な前整列に基づいた新しいマルチエクスポリットの共同VLMアーキテクチャであるAstreaを提案します。
Astreaは3つの重要な革新を導入します。1)4つの特殊なモデル(検出、セグメンテーション、分類、キャプション)を統合する不均一な専門家調整メカニズムは、本質的な視覚的理解要素をカバーする包括的な専門家マトリックスに統合します。
2)知識の継続性を維持するために確率的に活性化された確率的残留接続によって補完された、対照的な学習を通じてVLM潜在空間内の専門家を調和させるための進歩的な事前整列を特徴とする動的な知識融合戦略。
3)長距離依存性モデリングのための運動量対照学習とリアルタイムの専門家貢献キャリブレーションのための適応体重アロケーターを利用する強化された最適化フレームワーク。
VQA、画像キャプション、およびクロスモーダル検索にまたがる12のベンチマークタスクにわたる広範な評価は、最先端のモデルよりもアストラの優位性を示し、平均パフォーマンスゲインは+4.7 \%です。
この研究は、プログレッシブ前調整戦略によりVLMがタスクの不均一性の制限を克服できるようになり、汎用マルチモーダルエージェントを開発するための新しい方法論的基礎を確立できるという最初の経験的デモを提供します。

要約(オリジナル)

Vision-Language Models (VLMs) based on Mixture-of-Experts (MoE) architectures have emerged as a pivotal paradigm in multimodal understanding, offering a powerful framework for integrating visual and linguistic information. However, the increasing complexity and diversity of tasks present significant challenges in coordinating load balancing across heterogeneous visual experts, where optimizing one specialist’s performance often compromises others’ capabilities. To address task heterogeneity and expert load imbalance, we propose Astrea, a novel multi-expert collaborative VLM architecture based on progressive pre-alignment. Astrea introduces three key innovations: 1) A heterogeneous expert coordination mechanism that integrates four specialized models (detection, segmentation, classification, captioning) into a comprehensive expert matrix covering essential visual comprehension elements; 2) A dynamic knowledge fusion strategy featuring progressive pre-alignment to harmonize experts within the VLM latent space through contrastive learning, complemented by probabilistically activated stochastic residual connections to preserve knowledge continuity; 3) An enhanced optimization framework utilizing momentum contrastive learning for long-range dependency modeling and adaptive weight allocators for real-time expert contribution calibration. Extensive evaluations across 12 benchmark tasks spanning VQA, image captioning, and cross-modal retrieval demonstrate Astrea’s superiority over state-of-the-art models, achieving an average performance gain of +4.7\%. This study provides the first empirical demonstration that progressive pre-alignment strategies enable VLMs to overcome task heterogeneity limitations, establishing new methodological foundations for developing general-purpose multimodal agents.

arxiv情報

著者 Xiaoda Yang,JunYu Lu,Hongshun Qiu,Sijing Li,Hao Li,Shengpeng Ji,Xudong Tang,Jiayang Xu,Jiaqi Duan,Ziyue Jiang,Cong Lin,Sihang Cai,Zejian Xie,Zhuoyang Song,Songxin Zhang
発行日 2025-03-12 14:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Astrea: A MOE-based Visual Understanding Model with Progressive Alignment はコメントを受け付けていません

Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models

要約

テキストからイメージ(T2I)拡散モデルは、高品質の画像の生成において顕著な進歩を遂げましたが、有害または誤解を招くコンテンツの生成に関する人々の懸念も高めています。
ゼロからの再訓練を必要とせずに不要な概念を消去するために広範なアプローチが提案されていますが、通常の生成タスクでパフォーマンスを誤って劣化させています。
この作業では、全体的なパフォーマンスを維持しながら、T2I拡散モデルで正確な概念除去を可能にする新しいフレームワークである解釈が非アクティブ化(ITD)を提案します。
ITDは、まずスパースオートエンコーダー(SAE)を使用して、各概念を複数の機能の組み合わせとして解釈します。
ターゲットの概念に関連付けられた特定の機能を永続的に非アクティブ化することにより、SAEをターゲット概念を含むかどうかを識別するゼロショット分類器としてSAEを再利用し、拡散モデルの選択的概念の消去を可能にします。
さらに、ITDを簡単に拡張して、さらなるトレーニングを必要とせずに複数の概念を消去できることを実証します。
有名人のアイデンティティ、芸術的スタイル、および明示的なコンテンツを介した包括的な実験は、通常の概念を妨げることなくターゲットの概念を排除する際のITDの有効性を示しています。
さらに、ITDは、コンテンツフィルターを回避するように設計された敵対的なプロンプトに対しても堅牢です。
コードは、https://github.com/nansirun/interpret-then-deactivateで入手できます。

要約(オリジナル)

Text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images but also raise people’s concerns about generating harmful or misleading content. While extensive approaches have been proposed to erase unwanted concepts without requiring retraining from scratch, they inadvertently degrade performance on normal generation tasks. In this work, we propose Interpret then Deactivate (ItD), a novel framework to enable precise concept removal in T2I diffusion models while preserving overall performance. ItD first employs a sparse autoencoder (SAE) to interpret each concept as a combination of multiple features. By permanently deactivating the specific features associated with target concepts, we repurpose SAE as a zero-shot classifier that identifies whether the input prompt includes target concepts, allowing selective concept erasure in diffusion models. Moreover, we demonstrate that ItD can be easily extended to erase multiple concepts without requiring further training. Comprehensive experiments across celebrity identities, artistic styles, and explicit content demonstrate ItD’s effectiveness in eliminating targeted concepts without interfering with normal concept generation. Additionally, ItD is also robust against adversarial prompts designed to circumvent content filters. Code is available at: https://github.com/NANSirun/Interpret-then-deactivate.

arxiv情報

著者 Zhihua Tian,Sirun Nan,Ming Xu,Shengfang Zhai,Wenjie Qu,Jian Liu,Kui Ren,Ruoxi Jia,Jiaheng Zhang
発行日 2025-03-12 14:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models はコメントを受け付けていません

MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors

要約

視点投影は、単眼3Dオブジェクト検出方法で広く利用されています。
深度推定の不確実性を減らすために、2D境界ボックスと3Dオブジェクトの寸法から幾何学的なプライアーを導入します。
ただし、オブジェクトの視覚表面に由来する深度エラーのため、境界ボックスの高さは、幾何学的深さの有効性を損なう実際の投影された中央の高さを表すことができないことがよくあります。
予測された高さの直接予測は、2Dプライアーの喪失を避けてもたらされますが、複雑な枝を持つ多深い予測は幾何学的深さを完全に活用しません。
このホワイトペーパーでは、MonoDGPと呼ばれる変圧器ベースのモノクラー3Dオブジェクト検出方法を紹介します。これは、視点に不変のジオメトリエラーを採用して投影式を変更します。
また、多地的な予測に代わるシンプルだが効果的な代替として機能するジオメトリエラーの背後にあるメカニズムと有効性を体系的に議論し、説明しようとします。
さらに、MonoDGPは深さ誘導デコーダーを分離し、視覚的特徴にのみ依存する2Dデコーダーを構築し、3D検出の妨害なしに2Dプライアーとオブジェクトクエリを初期化します。
トランスデコーダーの入力トークンをさらに最適化および微調整するために、拡張機能とセグメントの埋め込みを生成するリージョンセグメントヘッド(RSH)も導入します。
私たちの単眼法は、追加のデータなしでキッティベンチマークで最先端のパフォーマンスを示しています。
コードはhttps://github.com/pufanqi23/monodgpで入手できます。

要約(オリジナル)

Perspective projection has been extensively utilized in monocular 3D object detection methods. It introduces geometric priors from 2D bounding boxes and 3D object dimensions to reduce the uncertainty of depth estimation. However, due to depth errors originating from the object’s visual surface, the height of the bounding box often fails to represent the actual projected central height, which undermines the effectiveness of geometric depth. Direct prediction for the projected height unavoidably results in a loss of 2D priors, while multi-depth prediction with complex branches does not fully leverage geometric depth. This paper presents a Transformer-based monocular 3D object detection method called MonoDGP, which adopts perspective-invariant geometry errors to modify the projection formula. We also try to systematically discuss and explain the mechanisms and efficacy behind geometry errors, which serve as a simple but effective alternative to multi-depth prediction. Additionally, MonoDGP decouples the depth-guided decoder and constructs a 2D decoder only dependent on visual features, providing 2D priors and initializing object queries without the disturbance of 3D detection. To further optimize and fine-tune input tokens of the transformer decoder, we also introduce a Region Segment Head (RSH) that generates enhanced features and segment embeddings. Our monocular method demonstrates state-of-the-art performance on the KITTI benchmark without extra data. Code is available at https://github.com/PuFanqi23/MonoDGP.

arxiv情報

著者 Fanqi Pu,Yifan Wang,Jiru Deng,Wenming Yang
発行日 2025-03-12 14:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors はコメントを受け付けていません

Online Language Splatting

要約

AIエージェントが人間と3D環境の両方とシームレスに対話できるようにするには、3D世界を正確に認識するだけでなく、人間の言語を3D空間表現に合わせなければなりません。
3Dガウススプラッティング(GS)を使用して、言語機能を幾何学的に詳細な3Dシーン表現に統合することにより、以前の作業が大きな進歩を遂げましたが、これらのアプローチは、各入力画像の言語機能の計算集約的なオフラインの前処理に依存し、新しい環境への適応性を制限します。
この作業では、事前に生成された言語機能を必要とせずに、3DGS-SLALシステム内でオンラインでほぼリアルタイムのオープンボキャブラリー言語マッピングを達成する最初のフレームワークであるオンライン言語スプラッティングを紹介します。
重要な課題は、計算速度、メモリの使用、レンダリングの品質、およびオープンポンシャル機能のバランスをとりながら、高次元言語の特徴を3D表現に効率的に融合することにあります。
To this end, we innovatively design: (1) a high-resolution CLIP embedding module capable of generating detailed language feature maps in 18ms per frame, (2) a two-stage online auto-encoder that compresses 768-dimensional CLIP features to 15 dimensions while preserving open-vocabulary capabilities, and (3) a color-language disentangled optimization approach to improve rendering quality.
実験結果は、オンライン方法が精度の最先端のオフライン方法を上回るだけでなく、40倍以上の効率向上を達成し、動的でインタラクティブなAIアプリケーションの可能性を示していることを示しています。

要約(オリジナル)

To enable AI agents to interact seamlessly with both humans and 3D environments, they must not only perceive the 3D world accurately but also align human language with 3D spatial representations. While prior work has made significant progress by integrating language features into geometrically detailed 3D scene representations using 3D Gaussian Splatting (GS), these approaches rely on computationally intensive offline preprocessing of language features for each input image, limiting adaptability to new environments. In this work, we introduce Online Language Splatting, the first framework to achieve online, near real-time, open-vocabulary language mapping within a 3DGS-SLAM system without requiring pre-generated language features. The key challenge lies in efficiently fusing high-dimensional language features into 3D representations while balancing the computation speed, memory usage, rendering quality and open-vocabulary capability. To this end, we innovatively design: (1) a high-resolution CLIP embedding module capable of generating detailed language feature maps in 18ms per frame, (2) a two-stage online auto-encoder that compresses 768-dimensional CLIP features to 15 dimensions while preserving open-vocabulary capabilities, and (3) a color-language disentangled optimization approach to improve rendering quality. Experimental results show that our online method not only surpasses the state-of-the-art offline methods in accuracy but also achieves more than 40x efficiency boost, demonstrating the potential for dynamic and interactive AI applications.

arxiv情報

著者 Saimouli Katragadda,Cho-Ying Wu,Yuliang Guo,Xinyu Huang,Guoquan Huang,Liu Ren
発行日 2025-03-12 14:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Online Language Splatting はコメントを受け付けていません