SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining

要約

実世界の3Dシーンを包括的に理解するためには、任意の、あるいは以前に見たことのないカテゴリーを認識することが不可欠である。現在のところ、既存の手法はすべて、学習時または推論時に2Dまたはテキストモダリティに依存している。このことは、セマンティクスをエンドツーエンドで学習するために3Dデータを単独で処理できるモデルが、そのようなモデルを訓練するために必要なデータとともに存在しないことを明確に示している。一方、3Dガウススプラッティング(3DGS)は、様々な視覚タスクにおける3Dシーン表現のデファクトスタンダードとして登場した。しかしながら、セマンティック推論を一般化可能な方法で3DGSに効果的に統合することは、依然として未解決の課題である。これらの限界に対処するために、我々はSceneSplatを紹介する。これは我々の知る限り、3DGS上でネイティブに動作する最初の大規模3D屋内シーン理解アプローチである。さらに、ラベル付けされていないシーンから豊富な3D特徴を学習する自己教師あり学習スキームを提案する。ScanNetやMatterport3Dなどの7つの確立されたデータセットから得られた7916シーンから構成される。SceneSplat-7Kの生成には、L4 GPUで150 GPU日に相当する計算リソースが必要であり、屋内シーンの3DGSベースの推論のための標準化されたベンチマークを可能にする。SceneSplat-7Kを用いた徹底的な実験により、確立されたベースラインに対する提案手法の大きな利点が実証された。

要約(オリジナル)

Recognizing arbitrary or previously unseen categories is essential for comprehensive real-world 3D scene understanding. Currently, all existing methods rely on 2D or textual modalities during training or together at inference. This highlights the clear absence of a model capable of processing 3D data alone for learning semantics end-to-end, along with the necessary data to train such a model. Meanwhile, 3D Gaussian Splatting (3DGS) has emerged as the de facto standard for 3D scene representation across various vision tasks. However, effectively integrating semantic reasoning into 3DGS in a generalizable manner remains an open challenge. To address these limitations, we introduce SceneSplat, to our knowledge the first large-scale 3D indoor scene understanding approach that operates natively on 3DGS. Furthermore, we propose a self-supervised learning scheme that unlocks rich 3D feature learning from unlabeled scenes. To power the proposed methods, we introduce SceneSplat-7K, the first large-scale 3DGS dataset for indoor scenes, comprising 7916 scenes derived from seven established datasets, such as ScanNet and Matterport3D. Generating SceneSplat-7K required computational resources equivalent to 150 GPU days on an L4 GPU, enabling standardized benchmarking for 3DGS-based reasoning for indoor scenes. Our exhaustive experiments on SceneSplat-7K demonstrate the significant benefit of the proposed method over the established baselines.

arxiv情報

著者 Yue Li,Qi Ma,Runyi Yang,Huapeng Li,Mengjiao Ma,Bin Ren,Nikola Popovic,Nicu Sebe,Ender Konukoglu,Theo Gevers,Luc Van Gool,Martin R. Oswald,Danda Pani Paudel
発行日 2025-06-03 16:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining はコメントを受け付けていません

Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data

要約

本論文では、大規模なラベル付きデータセットへの依存を低減する一方で、ソースフリードメインアダプテーション(SFDA)や人物再識別(ReID)などの多様なコンピュータビジョンタスクにおけるモデルの頑健性と適応性を向上させるために設計された、新しい二重領域拡張アプローチを紹介する。本手法は、前景オブジェクトにランダムなノイズ摂動を適用し、背景パッチを空間的にシャッフルすることで、的を絞ったデータ変換を行う。これにより、学習データの多様性を効果的に増加させ、モデルの頑健性と汎化性を向上させる。SFDAのためのPACSデータセットでの評価により、我々の増強戦略が一貫して既存の手法を凌駕し、単一ターゲットと複数ターゲットの適応設定の両方で大幅な精度向上を達成することが実証された。構造化変換により学習データを増強することで、本手法はドメイン横断的なモデルの汎化を可能にし、人手によるアノテーションデータセットへの依存を低減するスケーラブルなソリューションを提供する。さらに、Market-1501とDukeMTMC-reIDデータセットでの実験により、従来の補強技術を凌駕する、人物ReIDに対する本アプローチの有効性が検証された。コードはhttps://github.com/PrasannaPulakurthi/Foreground-Background-Augmentation。

要約(オリジナル)

This paper introduces a novel dual-region augmentation approach designed to reduce reliance on large-scale labeled datasets while improving model robustness and adaptability across diverse computer vision tasks, including source-free domain adaptation (SFDA) and person re-identification (ReID). Our method performs targeted data transformations by applying random noise perturbations to foreground objects and spatially shuffling background patches. This effectively increases the diversity of the training data, improving model robustness and generalization. Evaluations on the PACS dataset for SFDA demonstrate that our augmentation strategy consistently outperforms existing methods, achieving significant accuracy improvements in both single-target and multi-target adaptation settings. By augmenting training data through structured transformations, our method enables model generalization across domains, providing a scalable solution for reducing reliance on manually annotated datasets. Furthermore, experiments on Market-1501 and DukeMTMC-reID datasets validate the effectiveness of our approach for person ReID, surpassing traditional augmentation techniques. The code is available at https://github.com/PrasannaPulakurthi/Foreground-Background-Augmentation

arxiv情報

著者 Prasanna Reddy Pulakurthi,Majid Rabbani,Celso M. de Melo,Sohail A. Dianat,Raghuveer M. Rao
発行日 2025-06-03 16:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data はコメントを受け付けていません

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

要約

テキストから画像への生成モデル~(Stable Diffusionなど)は大きな進歩を遂げ、テキスト記述に基づく高品質でリアルな画像の作成を可能にしている。プロンプトの反転は、特定のアーチファクトを生成するために使用されたテキストプロンプトを特定するタスクであり、データの帰属、モデルの出所、電子透かしの検証を含むアプリケーションのための重要な可能性を秘めている。最近の研究では、語彙空間を代表するプロンプトを最適化する遅延投影スキームが導入されたが、意味的な流暢さと効率性には課題が残る。高度な画像キャプションモデルや視覚的な大規模言語モデルは、非常に解釈しやすいプロンプトを生成することができるが、画像の類似性に欠けることが多い。本論文では、テキストから画像への拡散モデルのためのプロンプト逆変換技術(˶‾˶‾˶‾˶‾˶‾˶‾˶‾˶‾˶‾˶‾˶‾˶‾˵)を提案する。MS COCO、LAION、Flickrなどの広く利用されているデータセットを用いた実験により、我々の手法が、画像の類似性、テキストの整列、迅速な解釈可能性、汎用性の点で既存の手法を凌駕することが示された。さらに、我々の生成したプロンプトを、クロスコンセプト画像合成、コンセプト操作、進化的マルチコンセプト生成、教師なしセグメンテーションなどのタスクに応用した例を示す。

要約(オリジナル)

Text-to-image generation models~(e.g., Stable Diffusion) have achieved significant advancements, enabling the creation of high-quality and realistic images based on textual descriptions. Prompt inversion, the task of identifying the textual prompt used to generate a specific artifact, holds significant potential for applications including data attribution, model provenance, and watermarking validation. Recent studies introduced a delayed projection scheme to optimize for prompts representative of the vocabulary space, though challenges in semantic fluency and efficiency remain. Advanced image captioning models or visual large language models can generate highly interpretable prompts, but they often lack in image similarity. In this paper, we propose a prompt inversion technique called \sys for text-to-image diffusion models, which includes initializing embeddings using a pre-trained image captioning model, refining them through reverse-engineering in the latent space, and converting them to texts using an embedding-to-text model. Our experiments on the widely-used datasets, such as MS COCO, LAION, and Flickr, show that our method outperforms existing methods in terms of image similarity, textual alignment, prompt interpretability and generalizability. We further illustrate the application of our generated prompts in tasks such as cross-concept image synthesis, concept manipulation, evolutionary multi-concept generation and unsupervised segmentation.

arxiv情報

著者 Mingzhe Li,Gehao Zhang,Zhenting Wang,Shiqing Ma,Siqi Pan,Richard Cartwright,Juan Zhai
発行日 2025-06-03 16:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models はコメントを受け付けていません

SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification

要約

きめ細かな鳥類画像分類(FBIC)は、生態学的モニタリングや種の同定に大きな意義を持つだけでなく、画像認識やきめ細かな視覚モデリングの分野においても幅広い研究価値がある。一般的な画像分類タスクと比較して、FBICはより困難な課題を突きつけている:1)種の大きさと撮影距離の違いにより、画像に表示される鳥の大きさが異なること、2)複雑な自然の生息地では、しばしば強い背景干渉が生じること、3)飛行、止まり木、採餌などの非常に柔軟なポーズにより、クラス内変動が大きくなること。これらの要因が総合的に、従来の手法では識別特徴を安定的に抽出することが困難であり、その結果、実世界のアプリケーションにおけるモデルの一般化可能性と解釈可能性が制限される。これらの課題に対処するため、本論文では、ストリップを考慮した空間認識に基づく、きめ細かな鳥類分類フレームワークを提案する。このフレームワークは、鳥類画像の行または列全体にわたる長距離空間依存性を捉えることを目的とし、これによりモデルの頑健性と解釈可能性を高める。提案手法は、拡張知覚集約(EPA)とチャネル意味編み(CSW)という2つの新しいモジュールを組み込んでいる。具体的には、EPAは水平方向と垂直方向の空間的な情報を集約することで、局所的なテクスチャの詳細と大域的な構造的手がかりを統合する。CSWは、チャンネル次元に沿って長距離と短距離の情報を適応的に融合することにより、意味表現をさらに洗練させる。ResNet-50のバックボーン上に構築されたこのモデルは、空間領域全体にわたる拡張された構造的特徴のジャンプワイズ接続を可能にする。CUB-200-2011データセットでの実験結果は、我々のフレームワークがアーキテクチャの効率性を維持しながら、大幅な性能向上を達成したことを示している。

要約(オリジナル)

Fine-grained bird image classification (FBIC) is not only of great significance for ecological monitoring and species identification, but also holds broad research value in the fields of image recognition and fine-grained visual modeling. Compared with general image classification tasks, FBIC poses more formidable challenges: 1) the differences in species size and imaging distance result in the varying sizes of birds presented in the images; 2) complex natural habitats often introduce strong background interference; 3) and highly flexible poses such as flying, perching, or foraging result in substantial intra-class variability. These factors collectively make it difficult for traditional methods to stably extract discriminative features, thereby limiting the generalizability and interpretability of models in real-world applications. To address these challenges, this paper proposes a fine-grained bird classification framework based on strip-aware spatial perception, which aims to capture long-range spatial dependencies across entire rows or columns in bird images, thereby enhancing the model’s robustness and interpretability. The proposed method incorporates two novel modules: extensional perception aggregator (EPA) and channel semantic weaving (CSW). Specifically, EPA integrates local texture details with global structural cues by aggregating information across horizontal and vertical spatial directions. CSW further refines the semantic representations by adaptively fusing long-range and short-range information along the channel dimension. Built upon a ResNet-50 backbone, the model enables jump-wise connection of extended structural features across the spatial domain. Experimental results on the CUB-200-2011 dataset demonstrate that our framework achieves significant performance improvements while maintaining architectural efficiency.

arxiv情報

著者 Zheng Wang
発行日 2025-06-03 16:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification はコメントを受け付けていません

LEG-SLAM: Real-Time Language-Enhanced Gaussian Splatting for SLAM

要約

最新のガウス散布法は、3Dシーンのリアルタイムフォトリアリスティックレンダリングに非常に有効であることが証明されている。しかし、この表現に意味情報を統合することは、特にSLAM(Simultaneous Localization and Mapping)アプリケーションのリアルタイム性能を維持する上で、依然として重要な課題である。LEG-SLAMは、最適化されたガウススプラッティングの実装と、DINOv2を用いた視覚言語による特徴抽出、および主成分分析に基づく学習可能な特徴圧縮器を融合した新しいアプローチである。我々の手法は、高品質なフォトリアリスティック画像と意味的にラベル付けされたシーンマップを同時に生成し、Replicaデータセットでは10fps以上、ScanNetでは18fps以上のリアルタイムシーン再構成を達成する。実験結果は、我々のアプローチが、競争力のあるレンダリング品質を達成しながら、再構成速度において最先端の手法を大幅に上回ることを示している。提案システムは、カメラのエゴモーションや事前に計算された静的意味マップのような事前のデータ準備を不要にする。LEG-SLAMは、自律ロボット工学、拡張現実、および他のインタラクティブな領域への応用の可能性があり、リアルタイム意味的3DガウスベースSLAMにおける重要な前進を意味する。プロジェクトページ: https://titrom025.github.io/LEG-SLAM/

要約(オリジナル)

Modern Gaussian Splatting methods have proven highly effective for real-time photorealistic rendering of 3D scenes. However, integrating semantic information into this representation remains a significant challenge, especially in maintaining real-time performance for SLAM (Simultaneous Localization and Mapping) applications. In this work, we introduce LEG-SLAM — a novel approach that fuses an optimized Gaussian Splatting implementation with visual-language feature extraction using DINOv2 followed by a learnable feature compressor based on Principal Component Analysis, while enabling an online dense SLAM. Our method simultaneously generates high-quality photorealistic images and semantically labeled scene maps, achieving real-time scene reconstruction with more than 10 fps on the Replica dataset and 18 fps on ScanNet. Experimental results show that our approach significantly outperforms state-of-the-art methods in reconstruction speed while achieving competitive rendering quality. The proposed system eliminates the need for prior data preparation such as camera’s ego motion or pre-computed static semantic maps. With its potential applications in autonomous robotics, augmented reality, and other interactive domains, LEG-SLAM represents a significant step forward in real-time semantic 3D Gaussian-based SLAM. Project page: https://titrom025.github.io/LEG-SLAM/

arxiv情報

著者 Roman Titkov,Egor Zubkov,Dmitry Yudin,Jaafar Mahmoud,Malik Mohrat,Gennady Sidorov
発行日 2025-06-03 16:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | LEG-SLAM: Real-Time Language-Enhanced Gaussian Splatting for SLAM はコメントを受け付けていません

Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification

要約

近年、畳み込みニューラルネットワーク(CNN)の性能が大幅に向上している。しかし、そのサイズと複雑さのため、ブラックボックスとして機能し、透明性の懸念につながっている。最先端の顕著性手法は、クラスが識別された入力画像内の領域を強調する局所的な説明を生成するが、関心のある概念が予測にどのように寄与するかを説明することはできない。一方、TCAV (Testing with Concept Activation Vectors)のような概念に基づく手法は、ネットワークが概念に対してどの程度敏感であるかについての洞察を提供するが、特定の予測におけるその帰属を計算することも、入力画像内のその位置を示すこともできない。本論文では、CNNベースの画像分類に局所的な説明と大域的な説明の両方を提供することで、これらの手法のギャップを埋めることを目的とした、新しいポストホック説明可能性フレームワーク、Visual-TCAVを紹介する。Visual-TCAVは概念活性化ベクトル(Concept Activation Vectors: CAVs)を用いて、ネットワークによって概念が認識された場所を示す顕著性マップを生成する。さらに、統合勾配(Integrated Gradients)の一般化を用いて、任意のクラスの出力に対するこれらの概念の帰属を推定することができる。このフレームワークは一般的なCNNアーキテクチャで評価され、説明のためのグランドトゥルースが既知である実験や、TCAVとの比較により、その妥当性がさらに確認される。我々のコードはhttps://github.com/DataSciencePolimi/Visual-TCAV。

要約(オリジナル)

Convolutional Neural Networks (CNNs) have seen significant performance improvements in recent years. However, due to their size and complexity, they function as black-boxes, leading to transparency concerns. State-of-the-art saliency methods generate local explanations that highlight the area in the input image where a class is identified but cannot explain how a concept of interest contributes to the prediction, which is essential for bias mitigation. On the other hand, concept-based methods, such as TCAV (Testing with Concept Activation Vectors), provide insights into how sensitive is the network to a concept, but cannot compute its attribution in a specific prediction nor show its location within the input image. This paper introduces a novel post-hoc explainability framework, Visual-TCAV, which aims to bridge the gap between these methods by providing both local and global explanations for CNN-based image classification. Visual-TCAV uses Concept Activation Vectors (CAVs) to generate saliency maps that show where concepts are recognized by the network. Moreover, it can estimate the attribution of these concepts to the output of any class using a generalization of Integrated Gradients. This framework is evaluated on popular CNN architectures, with its validity further confirmed via experiments where ground truth for explanations is known, and a comparison with TCAV. Our code is available at https://github.com/DataSciencePolimi/Visual-TCAV.

arxiv情報

著者 Antonio De Santis,Riccardo Campi,Matteo Bianchi,Marco Brambilla
発行日 2025-06-03 16:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification はコメントを受け付けていません

ORV: 4D Occupancy-centric Robot Video Generation

要約

遠隔操作による実世界のロボットシミュレーションデータの取得は、時間と労力がかかることで知られている。近年、ロボット学習やシミュレーションにおいて、行動駆動型の生成モデルが広く採用されるようになってきた。しかし、これらの手法で使用される行動シーケンスは、大域的に粗い整列であるため、制御精度が制限され、汎化が不十分であることが多い。これらの限界に対処するために、我々は、ビデオ生成のためのより正確な意味的・幾何学的ガイダンスを提供するために、きめ細かい表現として4次元意味的占有シーケンスを利用する、占有中心ロボットビデオ生成フレームワークであるORVを提案する。ORVは、占有率ベースの表現を活用することで、シミュレーションデータをフォトリアリスティックなロボット映像にシームレスに変換することを可能にし、同時に高い時間的一貫性と正確な制御性を保証する。さらに、本フレームワークは、ロボットの把持操作のマルチビュー映像の同時生成をサポートしており、これは下流のロボット学習タスクにとって重要な機能である。広範な実験結果は、ORVが様々なデータセットやサブタスクにおいて、既存のベースライン手法を一貫して上回ることを実証している。デモ、コード、モデル: https://orangesodahub.github.io/ORV

要約(オリジナル)

Acquiring real-world robotic simulation data through teleoperation is notoriously time-consuming and labor-intensive. Recently, action-driven generative models have gained widespread adoption in robot learning and simulation, as they eliminate safety concerns and reduce maintenance efforts. However, the action sequences used in these methods often result in limited control precision and poor generalization due to their globally coarse alignment. To address these limitations, we propose ORV, an Occupancy-centric Robot Video generation framework, which utilizes 4D semantic occupancy sequences as a fine-grained representation to provide more accurate semantic and geometric guidance for video generation. By leveraging occupancy-based representations, ORV enables seamless translation of simulation data into photorealistic robot videos, while ensuring high temporal consistency and precise controllability. Furthermore, our framework supports the simultaneous generation of multi-view videos of robot gripping operations – an important capability for downstream robotic learning tasks. Extensive experimental results demonstrate that ORV consistently outperforms existing baseline methods across various datasets and sub-tasks. Demo, Code and Model: https://orangesodahub.github.io/ORV

arxiv情報

著者 Xiuyu Yang,Bohan Li,Shaocong Xu,Nan Wang,Chongjie Ye,Zhaoxi Chen,Minghan Qin,Yikang Ding,Xin Jin,Hang Zhao,Hao Zhao
発行日 2025-06-03 17:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ORV: 4D Occupancy-centric Robot Video Generation はコメントを受け付けていません

SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis

要約

手術シミュレーションは、初心者の外科医を訓練し、学習曲線を加速させ、術中のエラーを減少させる上で極めて重要な役割を担っている。しかし、従来のシミュレーションツールでは、必要なフォトリアリズムや人体解剖の可変性を提供するには不十分であった。これに対し、現在の手法は生成モデルベースのシミュレータに移行しつつある。しかし、これらのアプローチでは、正確な合成のために複雑化する条件付けを使用することに主眼が置かれており、人間のきめ細かな制御の側面は無視されている。このギャップに対処するために、我々は、精密な映像合成ときめ細かな人間制御の両方にシーングラフを活用する、最初の拡散ベースの映像モデルであるSG2VIDを紹介する。SG2VIDの能力を、白内障手術と胆嚢摘出手術を扱った3つの公開データセットで実証する。SG2VIDは、質的にも量的にも従来の手法を凌駕する一方で、精密な合成を可能にし、ツールや解剖学的構造のサイズや動き、新しいツールの入り口、さらにはシーン全体のレイアウトを正確に制御する。また、SG2VIDがどのように生成補強に使用できるかを定性的に説明し、SG2VIDの学習セットを合成ビデオで拡張した場合に、下流の位相検出タスクを改善できることを実証する実験を示す。最後に、人間の制御を保持するSG2VIDの能力を示すために、我々はシーングラフと対話し、主要ではあるが稀な術中の不規則性を描写する新しいビデオサンプルを生成する。

要約(オリジナル)

Surgical simulation plays a pivotal role in training novice surgeons, accelerating their learning curve and reducing intra-operative errors. However, conventional simulation tools fall short in providing the necessary photorealism and the variability of human anatomy. In response, current methods are shifting towards generative model-based simulators. Yet, these approaches primarily focus on using increasingly complex conditioning for precise synthesis while neglecting the fine-grained human control aspect. To address this gap, we introduce SG2VID, the first diffusion-based video model that leverages Scene Graphs for both precise video synthesis and fine-grained human control. We demonstrate SG2VID’s capabilities across three public datasets featuring cataract and cholecystectomy surgery. While SG2VID outperforms previous methods both qualitatively and quantitatively, it also enables precise synthesis, providing accurate control over tool and anatomy’s size and movement, entrance of new tools, as well as the overall scene layout. We qualitatively motivate how SG2VID can be used for generative augmentation and present an experiment demonstrating its ability to improve a downstream phase detection task when the training set is extended with our synthetic videos. Finally, to showcase SG2VID’s ability to retain human control, we interact with the Scene Graphs to generate new video samples depicting major yet rare intra-operative irregularities.

arxiv情報

著者 Ssharvien Kumar Sivakumar,Yannik Frisch,Ghazal Ghazaei,Anirban Mukhopadhyay
発行日 2025-06-03 17:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis はコメントを受け付けていません

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation

要約

マルチモーダル大規模言語モデル(MLLM)の最新の進歩により、自律走行のためのエンドツーエンドの運動計画アプローチに再び強い関心が集まっている。多くのエンドツーエンドアプローチは、中間的な知覚と予測タスクを学習するために、人間の注釈に依存している。一方、純粋な自己教師アプローチは、人間の注釈なしで、計画軌道を生成するためにセンサ入力から直接学習するが、多くの場合、最先端の技術を下回っている。我々は、入力表現空間における重要なギャップを観察している:MLLMで構築されたエンドツーエンドのアプローチは、自律走行車が計画を立てる本来の3D空間ではなく、2D画像空間における推論タスクで事前学習されることが多い。この目的のために、我々は、人気のあるPaLIマルチモーダル大規模言語モデルをベースとした、時空間視覚表現によるスケーラブルな自己教師付き運動計画アルゴリズムであるS4-Driverを提案する。S4-Driverは、ビジョンエンコーダを微調整することなく、MLLMの強い視覚表現を透視図から3D空間へシームレスに変換するために、新しいスパースボリューム戦略を用いる。この表現により、多視点・多フレームの視覚入力が集約され、3D空間における計画軌道の予測精度が向上する。本手法を検証するため、nuScenesとWaymo Open Motion Dataset(社内カメラデータ)の両方で実験を行った。その結果、S4-Driverは、人間の注釈を必要としない一方で、既存の教師ありマルチタスクアプローチに対して優れた性能を発揮することが示された。S4-Driverはまた、注釈のない大量の運転ログに対して事前に学習させることで、優れたスケーラビリティを示す。

要約(オリジナル)

The latest advancements in multi-modal large language models (MLLMs) have spurred a strong renewed interest in end-to-end motion planning approaches for autonomous driving. Many end-to-end approaches rely on human annotations to learn intermediate perception and prediction tasks, while purely self-supervised approaches–which directly learn from sensor inputs to generate planning trajectories without human annotations often underperform the state of the art. We observe a key gap in the input representation space: end-to-end approaches built on MLLMs are often pretrained with reasoning tasks in 2D image space rather than the native 3D space in which autonomous vehicles plan. To this end, we propose S4-Driver, a scalable self-supervised motion planning algorithm with spatio-temporal visual representation, based on the popular PaLI multimodal large language model. S4-Driver uses a novel sparse volume strategy to seamlessly transform the strong visual representation of MLLMs from perspective view to 3D space without the need to finetune the vision encoder. This representation aggregates multi-view and multi-frame visual inputs and enables better prediction of planning trajectories in 3D space. To validate our method, we run experiments on both nuScenes and Waymo Open Motion Dataset (with in-house camera data). Results show that S4-Driver performs favorably against existing supervised multi-task approaches while requiring no human annotations. It also demonstrates great scalability when pretrained on large volumes of unannotated driving logs.

arxiv情報

著者 Yichen Xie,Runsheng Xu,Tong He,Jyh-Jing Hwang,Katie Luo,Jingwei Ji,Hubert Lin,Letian Chen,Yiren Lu,Zhaoqi Leng,Dragomir Anguelov,Mingxing Tan
発行日 2025-06-03 17:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation はコメントを受け付けていません

InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba

要約

人間と人間のインタラクション生成は、人間を社会的存在として理解する上で重要な役割を果たすため、モーション合成において大きな注目を集めている。しかし、既存の手法は一般的にトランスフォーマーベースのアーキテクチャに依存しており、スケーラビリティや効率性に関する課題にしばしば直面する。これらの問題に対処するために、我々はMambaフレームワークに基づく、新規で効率的な人間と人間のインタラクション生成手法を提案する。具体的には、モーションシーケンスの空間的特徴と時間的特徴を統合する適応的メカニズムを持つ2つの並列SSMブランチを利用する適応的時空間マンバフレームワークを導入する。個々のモーションシーケンス内の依存関係や、異なる個々のシーケンス間の相互作用を捉えるモデルの能力をさらに向上させるために、我々は2つの重要なモジュールを開発する。すなわち、自己適応型時空間マンバモジュールと交差適応型時空間マンバモジュールであり、効率的な特徴学習を可能にする。広範な実験により、我々の手法が2つの相互作用データセットにおいて、顕著な品質と効率で最先端の結果を達成したことが実証された。ベースライン手法であるInterGenと比較して、我々の手法は精度を向上させるだけでなく、InterGenの実行時間の46%である0.57秒という平均推論速度を達成しながら、InterGenの36%である66Mという最小限のパラメータサイズしか必要としない。

要約(オリジナル)

Human-human interaction generation has garnered significant attention in motion synthesis due to its vital role in understanding humans as social beings. However, existing methods typically rely on transformer-based architectures, which often face challenges related to scalability and efficiency. To address these issues, we propose a novel, efficient human-human interaction generation method based on the Mamba framework, designed to meet the demands of effectively capturing long-sequence dependencies while providing real-time feedback. Specifically, we introduce an adaptive spatio-temporal Mamba framework that utilizes two parallel SSM branches with an adaptive mechanism to integrate the spatial and temporal features of motion sequences. To further enhance the model’s ability to capture dependencies within individual motion sequences and the interactions between different individual sequences, we develop two key modules: the self-adaptive spatio-temporal Mamba module and the cross-adaptive spatio-temporal Mamba module, enabling efficient feature learning. Extensive experiments demonstrate that our method achieves state-of-the-art results on two interaction datasets with remarkable quality and efficiency. Compared to the baseline method InterGen, our approach not only improves accuracy but also requires a minimal parameter size of just 66M ,only 36% of InterGen’s, while achieving an average inference speed of 0.57 seconds, which is 46% of InterGen’s execution time.

arxiv情報

著者 Zizhao Wu,Yingying Sun,Yiming Chen,Xiaoling Gu,Ruyu Liu,Jiazhou Chen
発行日 2025-06-03 17:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba はコメントを受け付けていません