Poison-splat: Computation Cost Attack on 3D Gaussian Splatting

要約

画期的なパフォーマンスと効率性で知られる 3D ガウス スプラッティング (3DGS) は、主要な 3D 表現となり、多くの 3D ビジョン タスクに進歩をもたらしました。
しかし、今回の研究では、3DGS でほとんど見落とされてきた重大なセキュリティ脆弱性を明らかにしました。それは、入力データをポイズニングすることで、3DGS のトレーニングの計算コストが悪意を持って改ざんされる可能性があるということです。
Poison-splat と呼ばれる攻撃を開発することで、攻撃者が入力画像をポイズニングして 3DGS トレーニングに必要な計算メモリと時間を大幅に増加させ、アルゴリズムを最悪の計算複雑さに近づけることができる新しい攻撃対象領域を明らかにします。
極端な場合には、この攻撃により割り当て可能なメモリがすべて消費され、サーバーを中断するサービス拒否 (DoS) が発生し、実際の 3DGS サービス ベンダーに実質的な損害が発生する可能性があります。
このような計算コスト攻撃は、攻撃目的の近似、プロキシ モデルのレンダリング、およびオプションの制約付き最適化という 3 つの調整された戦略を通じて 2 レベルの最適化問題に対処することによって実現されます。
これらの戦略は、攻撃の有効性を確保するだけでなく、単純な防御手段による防御を困難にします。
私たちは、この新たな攻撃対象領域の暴露が、3DGS システムのこの重大でありながら見過ごされている脆弱性に注目を集めるきっかけとなることを願っています。

要約(オリジナル)

3D Gaussian splatting (3DGS), known for its groundbreaking performance and efficiency, has become a dominant 3D representation and brought progress to many 3D vision tasks. However, in this work, we reveal a significant security vulnerability that has been largely overlooked in 3DGS: the computation cost of training 3DGS could be maliciously tampered by poisoning the input data. By developing an attack named Poison-splat, we reveal a novel attack surface where the adversary can poison the input images to drastically increase the computation memory and time needed for 3DGS training, pushing the algorithm towards its worst computation complexity. In extreme cases, the attack can even consume all allocable memory, leading to a Denial-of-Service (DoS) that disrupts servers, resulting in practical damages to real-world 3DGS service vendors. Such a computation cost attack is achieved by addressing a bi-level optimization problem through three tailored strategies: attack objective approximation, proxy model rendering, and optional constrained optimization. These strategies not only ensure the effectiveness of our attack but also make it difficult to defend with simple defensive measures. We hope the revelation of this novel attack surface can spark attention to this crucial yet overlooked vulnerability of 3DGS systems.

arxiv情報

著者 Jiahao Lu,Yifan Zhang,Qiuhong Shen,Xinchao Wang,Shuicheng Yan
発行日 2024-10-10 17:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.GR, cs.LG | コメントする

HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation

要約

テキストから画像への拡散モデルの最近の進歩により、テキストのプロンプトによる驚くべき創造的能力が示されましたが、主題駆動型生成として知られる、特定の主題に基づいてパーソナライズされたインスタンスを生成することは依然として困難です。
この問題に取り組むために、最適化ベースの手法と直接回帰手法の利点を統合した、HybridBooth と呼ばれる新しいハイブリッド フレームワークを紹介します。
HybridBooth は 2 つの段階で動作します。Word Embedding Probe は、微調整されたエンコーダーを使用して堅牢な初期単語埋め込みを生成します。もう 1 つは Word Embedding Refinement です。Word Embedding Refinement は、主要なパラメーターを最適化することでエンコーダーを特定の被写体の画像にさらに適応させます。
このアプローチにより、モデルの一般化機能を維持しながら、たとえ単一の画像からであっても、視覚的な概念をテキストの埋め込みに効果的かつ迅速に反転できます。

要約(オリジナル)

Recent advancements in text-to-image diffusion models have shown remarkable creative capabilities with textual prompts, but generating personalized instances based on specific subjects, known as subject-driven generation, remains challenging. To tackle this issue, we present a new hybrid framework called HybridBooth, which merges the benefits of optimization-based and direct-regression methods. HybridBooth operates in two stages: the Word Embedding Probe, which generates a robust initial word embedding using a fine-tuned encoder, and the Word Embedding Refinement, which further adapts the encoder to specific subject images by optimizing key parameters. This approach allows for effective and fast inversion of visual concepts into textual embedding, even from a single image, while maintaining the model’s generalization capabilities.

arxiv情報

著者 Shanyan Guan,Yanhao Ge,Ying Tai,Jian Yang,Wei Li,Mingyu You
発行日 2024-10-10 17:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

要約

コードは、その精度と精度により、大規模な言語モデルの数学的推論能力を強化するのに効果的であることが示されています。
継続的な数学的事前トレーニングを伴う以前の研究には、数学関連のパッケージを利用するコードが含まれることがよくあります。これらのパッケージは、数学的推論に直接焦点を当てるのではなく、主にエンジニアリング、機械学習、信号処理、モジュール テストなどの分野向けに設計されています。
この論文では、継続的な事前トレーニングのための対応する推論ステップを伴う数学的コードを生成する新しい方法を紹介します。
私たちのアプローチは、数学関連の Web データ、数学パッケージを使用したコード、数学の教科書、合成データを組み込むことにより、高品質の数学的継続事前トレーニング データセットを構築することから始まります。
次に、以前に収集したデータセットから LaTeX 式、式に必要な条件、式の結果を抽出して推論ステップを構築します。
この抽出された情報に基づいて、対応するコードを生成し、数学的推論プロセスを正確に把握します。
生成されたコードを各推論ステップに追加すると、ペアの自然言語推論ステップとそれらに対応するコードで構成されるデータが生成されます。
このデータを元のデータセットと組み合わせると、19.2 億トークンの高性能な数学的事前トレーニング コーパスが生成され、これを MathCode-Pile と名付けます。
このコーパスを使用していくつかの一般的な基本モデルをトレーニングすると、数学的能力が大幅に向上し、MathCoder2 ファミリーのモデルの作成につながります。
当社のデータ処理およびトレーニング コードはすべてオープンソースであり、データ収集およびトレーニング パイプライン全体の完全な透明性と簡単な再現性を保証します。
コードは https://github.com/mathllm/MathCoder2 でリリースされています。

要約(オリジナル)

Code has been shown to be effective in enhancing the mathematical reasoning abilities of large language models due to its precision and accuracy. Previous works involving continued mathematical pretraining often include code that utilizes math-related packages, which are primarily designed for fields such as engineering, machine learning, signal processing, or module testing, rather than being directly focused on mathematical reasoning. In this paper, we introduce a novel method for generating mathematical code accompanied with corresponding reasoning steps for continued pretraining. Our approach begins with the construction of a high-quality mathematical continued pretraining dataset by incorporating math-related web data, code using mathematical packages, math textbooks, and synthetic data. Next, we construct reasoning steps by extracting LaTeX expressions, the conditions needed for the expressions, and the results of the expressions from the previously collected dataset. Based on this extracted information, we generate corresponding code to accurately capture the mathematical reasoning process. Appending the generated code to each reasoning step results in data consisting of paired natural language reasoning steps and their corresponding code. Combining this data with the original dataset results in a 19.2B-token high-performing mathematical pretraining corpus, which we name MathCode-Pile. Training several popular base models with this corpus significantly improves their mathematical abilities, leading to the creation of the MathCoder2 family of models. All of our data processing and training code is open-sourced, ensuring full transparency and easy reproducibility of the entire data collection and training pipeline. The code is released at https://github.com/mathllm/MathCoder2 .

arxiv情報

著者 Zimu Lu,Aojun Zhou,Ke Wang,Houxing Ren,Weikang Shi,Junting Pan,Mingjie Zhan,Hongsheng Li
発行日 2024-10-10 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models

要約

CLIP のような対照的視覚言語モデル (VLM) は、さまざまな下流タスクに多用途に適用できるため人気が高まっています。
ゼロショット物体認識などの一部のタスクでは成功したにもかかわらず、属性認識などの他のタスクでは驚くほどパフォーマンスが悪くなります。
これまでの研究では、これらの課題はモダリティのギャップ、共有表現空間における画像とテキストの分離、および属性などの他の要素よりもオブジェクトへの偏りが原因であるとされていました。
この分析論文では、両方の現象を徹底的に調査します。
既製の VLM を評価したところ、パフォーマンスに対するギャップの影響は通常、他の要因によって影が薄くなりますが、ギャップを埋めることが実際に改善につながる兆候が見出されました。
さらに、直観に反して、わずかな埋め込み次元のみがギャップを駆動し、埋め込み空間が異なって構成されていることがわかりました。
オブジェクトバイアスの明確な研究を可能にするために、その定義と対応する尺度を導入します。
このツールを使用すると、オブジェクトのバイアスが属性自体などの他の概念のパフォーマンスの低下につながることはないことがわかります。
しかし、そもそもなぜモダリティギャップとオブジェクトバイアスという両方の現象が現れるのでしょうか?
この基本的な質問に答え、対照的な VLM の内部動作の一部を明らかにするために、私たちはモダリティ間で共有される情報の量を制御できる実験を実施しました。
これらの実験により、モダリティギャップとオブジェクトバイアスの両方の背後にある要因は、画像とキャプションの間の情報の不均衡であることが明らかになり、モダリティギャップとロジットのエントロピーとの間の興味深い関係が明らかになりました。

要約(オリジナル)

Contrastive vision-language models (VLMs), like CLIP, have gained popularity for their versatile applicability to various downstream tasks. Despite their successes in some tasks, like zero-shot object recognition, they perform surprisingly poor on other tasks, like attribute recognition. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and to a bias towards objects over other factors, such as attributes. In this analysis paper, we investigate both phenomena thoroughly. We evaluated off-the-shelf VLMs and find that while the gap’s influence on performance is typically overshadowed by other factors, we find indications that closing the gap indeed leads to improvements. Moreover, we find that, contrary to intuition, only few embedding dimensions drive the gap and that the embedding spaces are differently organized. To allow for a clean study of object bias, we introduce a definition and a corresponding measure of it. Equipped with this tool, we find that object bias does not lead to worse performance on other concepts, such as attributes per se. However, why do both phenomena, modality gap and object bias, emerge in the first place? To answer this fundamental question and uncover some of the inner workings of contrastive VLMs, we conducted experiments that allowed us to control the amount of shared information between the modalities. These experiments revealed that the driving factor behind both the modality gap and the object bias, is an information imbalance between images and captions, and unveiled an intriguing connection between the modality gap and entropy of the logits.

arxiv情報

著者 Simon Schrodi,David T. Hoffmann,Max Argus,Volker Fischer,Thomas Brox
発行日 2024-10-10 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models

要約

テキストから画像への生成における拡散モデルの採用の増加により、その信頼性に対する懸念が生じています。
このようなモデルは現在、さまざまな指標、特にキャリブレーション、公平性、計算効率などの観点から厳密に精査されています。
この作業では、これらのモデルを展開するときに発生する 2 つの問題、つまり、画像をプロンプトする際の多様性の欠如と、トレーニング セットから画像を再作成する傾向に焦点を当てます。
両方の問題を解決するために、事前学習された拡散モデルのサンプリングされた軌跡を調整して、参照セットの外にある画像に着地させる方法を提案します。
これは、生成軌道全体を通じて拡散 SDE に反発項を追加することで実現します。これは、パスがシールドされた参照セット内の画像に近すぎると予想される場合にトリガーされます。
ほとんどの場合、これらの忌避項はゼロで非アクティブであり、生成軌跡の終わりに近づくとさらに顕著になるという意味で、私たちの方法はまばらです。
スパース忌避性を意味する SPELL と名付けられたこの方法は、保護された画像を含む静的参照セットで使用することも、バッチ内で同時に生成される予期される画像でタイムステップごとにセットを更新することによって動的に使用することもできます。
一般的な拡散モデルに SPELL を追加すると、FID にわずかな影響を与えながら多様性が向上し、最近のトレーニング不要の多様性手法よりも比較的優れたパフォーマンスを発揮することを示します。
また、SPELL が ImageNet からの 1.2M のすべての画像を保護されたセットとみなすことにより、保護された画像の非常に大きなセットから確実にシールドされた世代を確実に分離できることも示します。

要約(オリジナル)

The increased adoption of diffusion models in text-to-image generation has triggered concerns on their reliability. Such models are now closely scrutinized under the lens of various metrics, notably calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.

arxiv情報

著者 Michael Kirchhof,James Thornton,Pierre Ablin,Louis Béthune,Eugene Ndiaye,Marco Cuturi
発行日 2024-10-10 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | コメントする

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

要約

大規模言語モデル (LLM) の急速な進歩により、その機能をマルチモーダル タスクに拡張する取り組みが殺到しています。
その中でも、ビジュアルエンコーディングと言語デコーディングを単一の LLM に統合するモノリシックなマルチモーダル大規模言語モデル (MLLM) に注目が集まっています。
構造が単純で導入が容易であるにもかかわらず、期待できるパフォーマンスを備えたモノリシック MLLM をトレーニングすることは依然として困難です。
特に、一般的なアプローチでは、継続的な事前トレーニングを採用して、事前トレーニングされた LLM をモノリシック MLLM に拡張しますが、壊滅的な忘却が発生し、パフォーマンスの低下につながります。
この論文では、デルタチューニングの観点からこの制限を克服することを目指します。
具体的には、私たちの中心となるアイデアは、視覚パラメータを事前トレーニングされた LLM に埋め込むことで、デルタ チューニングを介して大量のデータから視覚知識を段階的に学習することです。つまり、視覚パラメータを最適化するときに LLM をフリーズします。
この原理に基づいて、私たちは、マルチモーダルな専門家混合構造を介して一連の視覚的専門家をシームレスに統合する、新しいモノリシック MLLM である Mono-InternVL を紹介します。
さらに、Mono-InternVL の視覚能力を最大化するための革新的な事前トレーニング戦略、すなわち Endogenous Visual Pre-training (EViP) を提案します。
特に、EViP は視覚専門家向けの進歩的な学習プロセスとして設計されており、ノイズの多いデータから高品質のデータまで視覚的な知識を最大限に活用することを目的としています。
私たちのアプローチを検証するために、16 のベンチマークで広範な実験を実施しました。
実験結果は、6 つのマルチモーダル ベンチマークで最先端の MLLM と比較して Mono-InternVL のパフォーマンスが優れていること (たとえば、OCRBench で InternVL-1.5 より +113 ポイント) を検証するだけでなく、その導入効率の向上も確認しています。
トークンの遅延が最大 67% 削減されました。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has led to an influx of efforts to extend their capabilities to multimodal tasks. Among them, growing attention has been focused on monolithic Multimodal Large Language Models (MLLMs) that integrate visual encoding and language decoding into a single LLM. Despite the structural simplicity and deployment-friendliness, training a monolithic MLLM with promising performance still remains challenging. In particular, the popular approaches adopt continuous pre-training to extend a pre-trained LLM to a monolithic MLLM, which suffers from catastrophic forgetting and leads to performance degeneration. In this paper, we aim to overcome this limitation from the perspective of delta tuning. Specifically, our core idea is to embed visual parameters into a pre-trained LLM, thereby incrementally learning visual knowledge from massive data via delta tuning, i.e., freezing the LLM when optimizing the visual parameters. Based on this principle, we present Mono-InternVL, a novel monolithic MLLM that seamlessly integrates a set of visual experts via a multimodal mixture-of-experts structure. Moreover, we propose an innovative pre-training strategy to maximize the visual capability of Mono-InternVL, namely Endogenous Visual Pre-training (EViP). In particular, EViP is designed as a progressive learning process for visual experts, which aims to fully exploit the visual knowledge from noisy data to high-quality data. To validate our approach, we conduct extensive experiments on 16 benchmarks. Experimental results not only validate the superior performance of Mono-InternVL compared to the state-of-the-art MLLM on 6 multimodal benchmarks, e.g., +113 points over InternVL-1.5 on OCRBench, but also confirm its better deployment efficiency, with first token latency reduced by up to 67%.

arxiv情報

著者 Gen Luo,Xue Yang,Wenhan Dou,Zhaokai Wang,Jifeng Dai,Yu Qiao,Xizhou Zhu
発行日 2024-10-10 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Interactive4D: Interactive 4D LiDAR Segmentation

要約

インタラクティブなセグメンテーションは、将来の LiDAR データセットのアノテーション プロセスを容易にする上で重要な役割を果たします。
既存のアプローチでは、LiDAR スキャンごとに個々のオブジェクトを順次セグメント化し、シーケンス全体にわたってこのプロセスを繰り返しますが、これは冗長で非効率的です。
この研究では、複数の LiDAR スキャンで複数のオブジェクトを同時にセグメント化できる新しいパラダイムであるインタラクティブ 4D セグメンテーションと、シーケンシャル
LiDAR データの性質。
インタラクティブなセグメンテーションを実行する際、私たちのモデルは時空間ボリューム全体を活用し、より効率的なセグメンテーションを実現します。
4D ボリューム上で動作し、長期にわたって一貫したインスタンス ID を直接提供し、注釈の追跡も簡素化します。
さらに、LiDAR 点群でのモデル トレーニングを成功させるには、クリック シミュレーションが重要であることを示します。
この目的を達成するために、LiDAR データの特性により適したクリック シミュレーション戦略を設計します。
その精度と有効性を実証するために、複数の LiDAR データセットで Interactive4D を評価しました。そこでは、Interactive4D は大幅な差で新しい最先端を達成しています。
承認され次第、コードとモデルを https://vision.rwth-aachen.de/Interactive4D で公開します。

要約(オリジナル)

Interactive segmentation has an important role in facilitating the annotation process of future LiDAR datasets. Existing approaches sequentially segment individual objects at each LiDAR scan, repeating the process throughout the entire sequence, which is redundant and ineffective. In this work, we propose interactive 4D segmentation, a new paradigm that allows segmenting multiple objects on multiple LiDAR scans simultaneously, and Interactive4D, the first interactive 4D segmentation model that segments multiple objects on superimposed consecutive LiDAR scans in a single iteration by utilizing the sequential nature of LiDAR data. While performing interactive segmentation, our model leverages the entire space-time volume, leading to more efficient segmentation. Operating on the 4D volume, it directly provides consistent instance IDs over time and also simplifies tracking annotations. Moreover, we show that click simulations are crucial for successful model training on LiDAR point clouds. To this end, we design a click simulation strategy that is better suited for the characteristics of LiDAR data. To demonstrate its accuracy and effectiveness, we evaluate Interactive4D on multiple LiDAR datasets, where Interactive4D achieves a new state-of-the-art by a large margin. Upon acceptance, we will publicly release the code and models at https://vision.rwth-aachen.de/Interactive4D.

arxiv情報

著者 Ilya Fradlin,Idil Esen Zulfikar,Kadir Yilmaz,Theodora Kontogianni,Bastian Leibe
発行日 2024-10-10 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

要約

離散拡散モデルは、画像生成やマスクされた言語モデリングなどのタスクでは成功を収めていますが、制御されたコンテンツ編集では限界に直面しています。
多項拡散やマスク生成モデルなどの離散拡散モデルの正確な逆変換を可能にする最初のアプローチである DICE (Discrete Inversion for Controllable Editing) を紹介します。
逆拡散プロセス中にノイズ シーケンスとマスキング パターンを記録することにより、DICE は、事前定義されたマスクや注意力の操作を必要とせずに、離散データの正確な再構成と柔軟な編集を可能にします。
VQ-Difffusion、Paella、RoBERTa などのモデルで評価し、画像とテキストの両方のドメインにわたる DICE の有効性を実証します。
私たちの結果は、DICE が高いデータ忠実度を維持しながら編集機能を強化し、離散空間でのきめ細かいコンテンツ操作の新たな機会を提供することを示しています。
プロジェクトの Web ページについては、https://hexiaoxiao-cs.github.io/DICE/ を参照してください。

要約(オリジナル)

Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

arxiv情報

著者 Xiaoxiao He,Ligong Han,Quan Dao,Song Wen,Minhao Bai,Di Liu,Han Zhang,Martin Renqiang Min,Felix Juefei-Xu,Chaowei Tan,Bo Liu,Kang Li,Hongdong Li,Junzhou Huang,Faez Ahmed,Akash Srivastava,Dimitris Metaxas
発行日 2024-10-10 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

要約

この論文では、身体化された AI における 3D 空間認識の重要性を強調する新しい表現学習フレームワークである SPA を紹介します。
私たちのアプローチは、マルチビュー画像に対する微分可能なニューラル レンダリングを利用して、バニラ ビジョン トランスフォーマー (ViT) に本質的な空間理解を与えます。
シングルタスクと言語条件付きマルチタスクの両方のシナリオで、多様なポリシーを持つ 8 つのシミュレーターにわたる 268 のタスクをカバーする、これまでの身体表現学習の最も包括的な評価を示します。
その結果は説得力があります。SPA は、より少ないトレーニング データを使用しながら、具体化された AI、ビジョン中心のタスク、マルチモーダル アプリケーション向けに特別に設計されたものなど、10 を超える最先端の表現方法を常に上回っています。
さらに、実際のシナリオでの有効性を確認するために一連の実際の実験を実施します。
これらの結果は、身体表現学習における 3D 空間認識の重要な役割を浮き彫りにしています。
私たちの最強のモデルのトレーニングには 6000 GPU 時間以上かかります。私たちは、身体表現学習における将来の研究を促進するために、すべてのコードとモデルの重みをオープンソース化することに取り組んでいます。
プロジェクトページ: https://haoyizhu.github.io/spa/。

要約(オリジナル)

In this paper, we introduce SPA, a novel representation learning framework that emphasizes the importance of 3D spatial awareness in embodied AI. Our approach leverages differentiable neural rendering on multi-view images to endow a vanilla Vision Transformer (ViT) with intrinsic spatial understanding. We present the most comprehensive evaluation of embodied representation learning to date, covering 268 tasks across 8 simulators with diverse policies in both single-task and language-conditioned multi-task scenarios. The results are compelling: SPA consistently outperforms more than 10 state-of-the-art representation methods, including those specifically designed for embodied AI, vision-centric tasks, and multi-modal applications, while using less training data. Furthermore, we conduct a series of real-world experiments to confirm its effectiveness in practical scenarios. These results highlight the critical role of 3D spatial awareness for embodied representation learning. Our strongest model takes more than 6000 GPU hours to train and we are committed to open-sourcing all code and model weights to foster future research in embodied representation learning. Project Page: https://haoyizhu.github.io/spa/.

arxiv情報

著者 Haoyi Zhu,Honghui Yang,Yating Wang,Jiange Yang,Limin Wang,Tong He
発行日 2024-10-10 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision

要約

現在の大規模マルチモーダル モデル (LMM) は、モデルが言語コンポーネントを視覚的エンティティに関連付ける必要があるため、グラウンディングという課題に直面しています。
追加の接地監視によって LMM を微調整する一般的な手法とは異なり、明示的な接地監視なしで訓練された LMM には実際に接地能力が発現する可能性があることがわかりました。
この新たな根拠を明らかにするために、標準 LMM のアテンション マップを活用してピクセル レベルのセグメンテーションを実行する「アテンド アンド セグメント」手法を導入します。
さらに、接地能力を強化するために、標準の CLIP ビジュアル エンコーダとは対照的に、拡散ベースのビジュアル エンコーダを利用し、同じ弱い監視でトレーニングされた LMM である DIFFLMM を提案します。
接地固有の監視データのバイアスや限られた規模に制約されることなく、私たちのアプローチはより一般化可能で拡張可能です。
当社は、グラウンディング固有のベンチマークと一般的な視覚的質問応答ベンチマークの両方で、それぞれグラウンディング LMM と汎用 LMM と比較して、競争力のあるパフォーマンスを達成しています。
特に、接地の監視なしで接地された会話の生成で 44.2 の接地マスク再現率を達成し、広範囲に監視されたモデル GLaMM を上回りました。
プロジェクトページ: https://groundLMM.github.io。

要約(オリジナル)

Current large multimodal models (LMMs) face challenges in grounding, which requires the model to relate language components to visual entities. Contrary to the common practice that fine-tunes LMMs with additional grounding supervision, we find that the grounding ability can in fact emerge in LMMs trained without explicit grounding supervision. To reveal this emerging grounding, we introduce an ‘attend-and-segment’ method which leverages attention maps from standard LMMs to perform pixel-level segmentation. Furthermore, to enhance the grounding ability, we propose DIFFLMM, an LMM utilizing a diffusion-based visual encoder, as opposed to the standard CLIP visual encoder, and trained with the same weak supervision. Without being constrained by the biases and limited scale of grounding-specific supervision data, our approach is more generalizable and scalable. We achieve competitive performance on both grounding-specific and general visual question answering benchmarks, compared with grounding LMMs and generalist LMMs, respectively. Notably, we achieve a 44.2 grounding mask recall on grounded conversation generation without any grounding supervision, outperforming the extensively supervised model GLaMM. Project page: https://groundLMM.github.io.

arxiv情報

著者 Shengcao Cao,Liang-Yan Gui,Yu-Xiong Wang
発行日 2024-10-10 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする