6DGS: Enhanced Direction-Aware Gaussian Splatting for Volumetric Rendering


新しいビューの合成は、ニューラル放射フィールド (NeRF) と 3D ガウス スプラッティング (3DGS) の開発により大幅に進歩しました。
ただし、リアルタイム レンダリングを損なうことなく高品質を達成することは、特にビュー依存の効果を伴う物理ベースのレイ トレーシングの場合、依然として困難です。
最近、N 次元ガウス (N-DG) では、ビュー依存の効果をより適切に組み込むために 6D 空間角度表現が導入されましたが、ガウス表現と制御スキームは最適とは言えません。
このペーパーでは、6D ガウスを再考し、色と不透明度の表現を強化し、最適化されたガウス制御のために 6D 空間内の追加の方向情報を活用する 6D ガウス スプラッティング (6DGS) を紹介します。
私たちのアプローチは 3DGS フレームワークと完全に互換性があり、ビュー依存の効果と詳細をより適切にモデリングすることにより、リアルタイムの放射輝度フィールド レンダリングを大幅に向上させます。
実験では、6DGS が 3DGS および N-DG よりも大幅に優れており、3DGS と比較してガウス ポイントが 66.5% 減少し、PSNR が最大 15.73 dB 向上することが実証されています。
プロジェクトページは: https://gaozhongpai.github.io/6dgs/


Novel view synthesis has advanced significantly with the development of neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS). However, achieving high quality without compromising real-time rendering remains challenging, particularly for physically-based ray tracing with view-dependent effects. Recently, N-dimensional Gaussians (N-DG) introduced a 6D spatial-angular representation to better incorporate view-dependent effects, but the Gaussian representation and control scheme are sub-optimal. In this paper, we revisit 6D Gaussians and introduce 6D Gaussian Splatting (6DGS), which enhances color and opacity representations and leverages the additional directional information in the 6D space for optimized Gaussian control. Our approach is fully compatible with the 3DGS framework and significantly improves real-time radiance field rendering by better modeling view-dependent effects and fine details. Experiments demonstrate that 6DGS significantly outperforms 3DGS and N-DG, achieving up to a 15.73 dB improvement in PSNR with a reduction of 66.5% Gaussian points compared to 3DGS. The project page is: https://gaozhongpai.github.io/6dgs/


著者 Zhongpai Gao,Benjamin Planche,Meng Zheng,Anwesa Choudhuri,Terrence Chen,Ziyan Wu
発行日 2024-10-10 17:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | 6DGS: Enhanced Direction-Aware Gaussian Splatting for Volumetric Rendering はコメントを受け付けていません

Theia: Distilling Diverse Vision Foundation Models for Robot Learning


視覚入力をアクションにマッピングする視覚ベースのロボット ポリシー学習では、分類やセグメンテーションなどの単一タスクのニーズを超えて、多様な視覚タスクを全体的に理解する必要があります。
これに触発されて、さまざまな視覚タスクで訓練された複数の既製の視覚基盤モデルを抽出した、ロボット学習用の視覚基盤モデルである Theia を紹介します。
Theia の豊富な視覚表現は多様な視覚的知識をエンコードし、下流のロボット学習を強化します。
広範な実験により、Theia は、少ないトレーニング データと小さなモデル サイズを使用して、教師モデルや以前のロボット学習モデルよりも優れたパフォーマンスを発揮することが実証されました。
コード、モデル、デモは https://theia.theaiinstitute.com で入手できます。


Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia’s rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code, models, and demo are available at https://theia.theaiinstitute.com.


著者 Jinghuan Shang,Karl Schmeckpeper,Brandon B. May,Maria Vittoria Minniti,Tarik Kelestemur,David Watkins,Laura Herlant
発行日 2024-10-10 17:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Theia: Distilling Diverse Vision Foundation Models for Robot Learning はコメントを受け付けていません

PaliGemma: A versatile 3B VLM for transfer


PaliGemma は、SigLIP-So400m ビジョン エンコーダと Gemma-2B 言語モデルに基づくオープン ビジョン言語モデル (VLM) です。
私たちは、標準的な VLM ベンチマークだけでなく、リモート センシングやセグメンテーションなどのより特殊なタスクも含む、約 40 の多様なタスクに関して PaliGemma を評価しています。


PaliGemma is an open Vision-Language Model (VLM) that is based on the SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to be a versatile and broadly knowledgeable base model that is effective to transfer. It achieves strong performance on a wide variety of open-world tasks. We evaluate PaliGemma on almost 40 diverse tasks including standard VLM benchmarks, but also more specialized tasks such as remote-sensing and segmentation.


著者 Lucas Beyer,Andreas Steiner,André Susano Pinto,Alexander Kolesnikov,Xiao Wang,Daniel Salz,Maxim Neumann,Ibrahim Alabdulmohsin,Michael Tschannen,Emanuele Bugliarello,Thomas Unterthiner,Daniel Keysers,Skanda Koppula,Fangyu Liu,Adam Grycner,Alexey Gritsenko,Neil Houlsby,Manoj Kumar,Keran Rong,Julian Eisenschlos,Rishabh Kabra,Matthias Bauer,Matko Bošnjak,Xi Chen,Matthias Minderer,Paul Voigtlaender,Ioana Bica,Ivana Balazevic,Joan Puigcerver,Pinelopi Papalampidi,Olivier Henaff,Xi Xiong,Radu Soricut,Jeremiah Harmsen,Xiaohua Zhai
発行日 2024-10-10 17:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | PaliGemma: A versatile 3B VLM for transfer はコメントを受け付けていません

Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs


この論文では、視覚情報がモデルの内部常識知識と矛盾する、マルチモーダル大規模言語モデル (MLLM) における常識レベルの視覚と知識の矛盾の問題を調査します (図 1 を参照)。
この問題を研究するために、人間参加型の品質管理を強化した自動パイプラインを導入し、MLLM における競合のシミュレーションと評価を目的としたベンチマークを確立します。
このパイプラインを利用して、374 枚のオリジナル画像と 1,122 個の高品質な質問と回答 (QA) のペアで構成される診断ベンチマークを作成しました。
このベンチマークは 2 種類の競合ターゲットと 3 つの質問難易度をカバーしており、徹底的な評価ツールを提供します。
このベンチマークを通じて、さまざまなモデル ファミリにわたる 9 つの代表的な MLLM の競合解決機能を評価し、テキスト クエリへの顕著な過度の依存を発見しました。
私たちの詳細な分析と新しく提案された戦略は、MLLM におけるビジョンと知識の矛盾の理解と軽減を大幅に前進させます。


This paper explores the problem of commonsense-level vision-knowledge conflict in Multimodal Large Language Models (MLLMs), where visual information contradicts model’s internal commonsense knowledge (see Figure 1). To study this issue, we introduce an automated pipeline, augmented with human-in-the-loop quality control, to establish a benchmark aimed at simulating and assessing the conflicts in MLLMs. Utilizing this pipeline, we have crafted a diagnostic benchmark comprising 374 original images and 1,122 high-quality question-answer (QA) pairs. This benchmark covers two types of conflict target and three question difficulty levels, providing a thorough assessment tool. Through this benchmark, we evaluate the conflict-resolution capabilities of nine representative MLLMs across various model families and find a noticeable over-reliance on textual queries. Drawing on these findings, we propose a novel prompting strategy, ‘Focus-on-Vision’ (FoV), which markedly enhances MLLMs’ ability to favor visual data over conflicting textual knowledge. Our detailed analysis and the newly proposed strategy significantly advance the understanding and mitigating of vision-knowledge conflicts in MLLMs. The data and code are made publicly available.


著者 Xiaoyuan Liu,Wenxuan Wang,Youliang Yuan,Jen-tse Huang,Qiuzhi Liu,Pinjia He,Zhaopeng Tu
発行日 2024-10-10 17:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs はコメントを受け付けていません

OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation


最近、視覚言語モデル (VLM) は、事前定義されたオブジェクト クラスの閉じたセットの従来のセグメンテーションからオープン語彙セグメンテーション (OVS) に移行することにより、高度なセグメンテーション技術を導入し、ユーザーが言語モデルのトレーニング中に目に見えない新しいクラスや概念をセグメント化できるようになりました。
ただし、この柔軟性にはトレードオフが伴います。完全に監視された閉集合メソッドは、基底クラス、つまり明示的にトレーニングされたクラスに対する OVS メソッドよりも優れたパフォーマンスを発揮します。
これは、VLM 用のピクセル調整されたトレーニング マスク (画像とキャプションのペアでトレーニングされる) が不足していることと、自動運転などのドメイン固有の知識が不足していることが原因です。
したがって、オープン語彙の性質を維持しながら、ドメイン固有の知識を VLM に注入するためのオープン語彙ドメイン適応タスクを提案します。
既存の VLM 適応方法は、ベース (トレーニング) クエリのパフォーマンスを向上させますが、新しいクエリでは VLM のオープンセット機能を完全には維持できません。
特に、私たちのアプローチは、新しいクラスで元の VLM を一貫して上回る、パラメーター効率の高い唯一の方法です。
当社の適応された VLM は、既存の OVS パイプラインにシームレスに統合できます。たとえば、他の変更を加えることなく、オープン語彙 2D セグメンテーションの場合、ADE20K で OVSeg が +6.0% mIoU 向上し、オープン語彙 3D インスタンス セグメンテーションの場合、ScanNet++ Offices で OpenMask3D が +4.1% AP 向上します。


Recently, Vision-Language Models (VLMs) have advanced segmentation techniques by shifting from the traditional segmentation of a closed-set of predefined object classes to open-vocabulary segmentation (OVS), allowing users to segment novel classes and concepts unseen during training of the segmentation model. However, this flexibility comes with a trade-off: fully-supervised closed-set methods still outperform OVS methods on base classes, that is on classes on which they have been explicitly trained. This is due to the lack of pixel-aligned training masks for VLMs (which are trained on image-caption pairs), and the absence of domain-specific knowledge, such as autonomous driving. Therefore, we propose the task of open-vocabulary domain adaptation to infuse domain-specific knowledge into VLMs while preserving their open-vocabulary nature. By doing so, we achieve improved performance in base and novel classes. Existing VLM adaptation methods improve performance on base (training) queries, but fail to fully preserve the open-set capabilities of VLMs on novel queries. To address this shortcoming, we combine parameter-efficient prompt tuning with a triplet-loss-based training strategy that uses auxiliary negative queries. Notably, our approach is the only parameter-efficient method that consistently surpasses the original VLM on novel classes. Our adapted VLMs can seamlessly be integrated into existing OVS pipelines, e.g., improving OVSeg by +6.0% mIoU on ADE20K for open-vocabulary 2D segmentation, and OpenMask3D by +4.1% AP on ScanNet++ Offices for open-vocabulary 3D instance segmentation without other changes.


著者 Gonca Yilmaz,Songyou Peng,Marc Pollefeys,Francis Engelmann,Hermann Blum
発行日 2024-10-10 17:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation はコメントを受け付けていません

Progressive Autoregressive Video Diffusion Models


ただし、トレーニング中の計算制限により、通常は約 10 秒または 240 フレームの短いビデオ クリップしか生成できません。
私たちの重要なアイデアは、単一のノイズ レベルではなく、段階的に増加するノイズ レベルを持つ潜在フレームを割り当てることです。これにより、潜在フレーム間の粒度の細かい条件とアテンション ウィンドウ間の大きな重複が可能になります。
1 分間の長いビデオ生成 (24 FPS で 1440 フレーム) に関する最先端の結果を紹介します。
この論文のビデオは https://desaixie.github.io/pa-vdm/ でご覧いただけます。


Current frontier video diffusion models have demonstrated remarkable results at generating high-quality videos. However, they can only generate short video clips, normally around 10 seconds or 240 frames, due to computation limitations during training. In this work, we show that existing models can be naturally extended to autoregressive video diffusion models without changing the architectures. Our key idea is to assign the latent frames with progressively increasing noise levels rather than a single noise level, which allows for fine-grained condition among the latents and large overlaps between the attention windows. Such progressive video denoising allows our models to autoregressively generate video frames without quality degradation or abrupt scene changes. We present state-of-the-art results on long video generation at 1 minute (1440 frames at 24 FPS). Videos from this paper are available at https://desaixie.github.io/pa-vdm/.


著者 Desai Xie,Zhan Xu,Yicong Hong,Hao Tan,Difan Liu,Feng Liu,Arie Kaufman,Yang Zhou
発行日 2024-10-10 17:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Progressive Autoregressive Video Diffusion Models はコメントを受け付けていません

RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace


術前に取得した CT スキャンと X 線画像の術中の 2D-3D レジストレーションは、整形外科手術において重要な手順です。
CT ボリューム内で事前にアノテーションが付けられた解剖学的ランドマークを X 線画像で検出して 2D と 3D の対応関係を確立し、位置合わせに利用できます。
我々は、X 線画像内の任意のランドマーク点を検出することにより、この問題に対処する新しい方法を提案します。
私たちのアプローチは、交差する光線に対応する特徴ベクトル (光線埋め込みと呼ばれる) によって形成される個別の部分空間として 3D 点を表します。
2D と 3D の対応関係を確立することは、特定の部分空間に近い光線埋め込みを見つけるタスクとなり、基本的に交差テストを実行します。
103 の CT ボリュームを含む CTPelvic1K CLINIC データセットから生成された合成画像を使用してモデルをトレーニングし、実際の X 線画像で構成される DeepFluoro データセットで評価しました。
コードは https://github.com/Pragyanstha/rayemb で入手できます。


Intra-operative 2D-3D registration of X-ray images with pre-operatively acquired CT scans is a crucial procedure in orthopedic surgeries. Anatomical landmarks pre-annotated in the CT volume can be detected in X-ray images to establish 2D-3D correspondences, which are then utilized for registration. However, registration often fails in certain view angles due to poor landmark visibility. We propose a novel method to address this issue by detecting arbitrary landmark points in X-ray images. Our approach represents 3D points as distinct subspaces, formed by feature vectors (referred to as ray embeddings) corresponding to intersecting rays. Establishing 2D-3D correspondences then becomes a task of finding ray embeddings that are close to a given subspace, essentially performing an intersection test. Unlike conventional methods for landmark estimation, our approach eliminates the need for manually annotating fixed landmarks. We trained our model using the synthetic images generated from CTPelvic1K CLINIC dataset, which contains 103 CT volumes, and evaluated it on the DeepFluoro dataset, comprising real X-ray images. Experimental results demonstrate the superiority of our method over conventional methods. The code is available at https://github.com/Pragyanstha/rayemb.


著者 Pragyan Shrestha,Chun Xie,Yuichi Yoshii,Itaru Kitahara
発行日 2024-10-10 17:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace はコメントを受け付けていません

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation


これらは、入力に徐々にノイズを追加するマルコフ プロセスのノイズを除去することによってトレーニングされます。
この論文では、自己回帰 (AR) と拡散を非マルコフの枠組み内で統合するトランスフォーマー ベースのモデルである DART を提案します。
DART は、標準言語モデルと同じアーキテクチャを持つ AR モデルを使用して、画像パッチを空間的およびスペクトル的に繰り返しノイズ除去します。
DART は画像の量子化に依存しないため、柔軟性を維持しながらより効果的な画像モデリングが可能になります。
さらに、DART は、統一モデル内のテキスト データと画像データの両方を使用してシームレスにトレーニングします。
この統合フレームワークを通じて、DART はスケーラブルで高品質な画像合成の新しいベンチマークを設定します。


Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.


著者 Jiatao Gu,Yuyang Wang,Yizhe Zhang,Qihang Zhang,Dinghuai Zhang,Navdeep Jaitly,Josh Susskind,Shuangfei Zhai
発行日 2024-10-10 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation はコメントを受け付けていません

Agent S: An Open Agentic Framework that Uses Computers Like a Human


Agent S は、グラフィカル ユーザー インターフェイス (GUI) を介してコンピュータとの自律的な対話を可能にするオープン エージェント フレームワークであり、複雑な複数ステップのタスクを自動化することで人間とコンピュータの対話を変革することを目的としています。
Agent S は、コンピュータ タスクの自動化における 3 つの主要な課題、つまりドメイン固有の知識の取得、長期にわたるタスク期間にわたる計画、および動的で不均一なインターフェイスの処理に対処することを目指しています。
この目的を達成するために、エージェント S は経験拡張型の階層計画を導入します。これは、外部の知識の検索と複数のレベルでの内部の経験の取得から学習し、効率的なタスク計画とサブタスクの実行を促進します。
さらに、エージェント コンピューター インターフェイス (ACI) を採用し、マルチモーダル大規模言語モデル (MLLM) に基づいた GUI エージェントの推論と制御機能をより適切に引き出します。
OSWorld ベンチマークでの評価では、Agent S が成功率でベースラインを 9.37% 上回り (83.6% の相対的改善)、新たな最先端の性能を達成していることが示されています。
さらに、Agent S は、新しくリリースされた WindowsAgentArena ベンチマークで、さまざまなオペレーティング システムに対する広範な汎用性を示しています。
コードは https://github.com/simular-ai/Agent-S で入手できます。


We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.


著者 Saaket Agashe,Jiuzhou Han,Shuyu Gan,Jiachen Yang,Ang Li,Xin Eric Wang
発行日 2024-10-10 17:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Agent S: An Open Agentic Framework that Uses Computers Like a Human はコメントを受け付けていません

Visual Scratchpads: Enabling Global Reasoning in Vision


これらのタスクは、1969 年に Minsky と Papert によって議論された接続タスクを思い出させます。このタスクは、パーセプトロン モデルの限界を明らかにし、最初の AI の冬に貢献しました。
このペーパーでは、経路探索と迷路を含む 4 つのグローバルな視覚ベンチマークを紹介することで、そのようなタスクを再検討します。
(1) 今日の大規模視覚モデルは、初期のモデルの表現力の限界を大幅に超えていますが、依然として学習効率の面で苦労しています。
(2) 次に、「視覚的スクラッチパッド」の導入によって状況が変化し、全体的な推論が可能になることを示します。
(3) 最後に、一部のスクラッチパッドが他のスクラッチパッドよりも優れていることを示します。特に、より少ない情報に依存してステップを実行する「誘導スクラッチパッド」は、より優れた配布外一般化を可能にし、より小さいモデルサイズで成功します。


Modern vision models have achieved remarkable success in benchmarks where local features provide critical information about the target. There is now a growing interest in solving tasks that require more global reasoning, where local features offer no significant information. These tasks are reminiscent of the connectivity tasks discussed by Minsky and Papert in 1969, which exposed the limitations of the perceptron model and contributed to the first AI winter. In this paper, we revisit such tasks by introducing four global visual benchmarks involving path findings and mazes. We show that: (1) although today’s large vision models largely surpass the expressivity limitations of the early models, they still struggle with the learning efficiency; we put forward the ‘globality degree’ notion to understand this limitation; (2) we then demonstrate that the picture changes and global reasoning becomes feasible with the introduction of ‘visual scratchpads’; similarly to the text scratchpads and chain-of-thoughts used in language models, visual scratchpads help break down global tasks into simpler ones; (3) we finally show that some scratchpads are better than others, in particular, ‘inductive scratchpads’ that take steps relying on less information afford better out-of-distribution generalization and succeed for smaller model sizes.


著者 Aryo Lotfi,Enrico Fini,Samy Bengio,Moin Nabi,Emmanuel Abbe
発行日 2024-10-10 17:44:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Visual Scratchpads: Enabling Global Reasoning in Vision はコメントを受け付けていません