Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約

複数のタスクをこなすジェネラリストな具現化エージェントの学習には、主にアクションラベル付けされたロボットデータセットの不足に起因する課題がある。対照的に、膨大な量の人間の動画が存在し、複雑なタスクや物理世界とのインタラクションを捉えている。アクションのない人間のビデオを事前学習に利用し、限られたロボットのデモンストレーションを通じて、ロボットの方針学習を促進するために知識を伝達する有望な展望が生まれる。しかし、人間とロボットの間には領域的な隔たりがあるため、これは依然として難題である。さらに、人間の動画はノイズが多く、マルチモーダルなデータ構造であるため、動的な世界を表す有用な情報を抽出することは困難である。本論文では、これらの課題に取り組むための新しいフレームワークを紹介する。このフレームワークは、人間の動画に対する生成的な事前学習と、少数のアクションラベル付きロボット動画に対するポリシーの微調整を組み合わせるために、統一された離散拡散を活用する。まず、人間とロボットの動画を統一された動画トークンに圧縮することから始める。事前学習段階では、潜在空間における将来のビデオ・トークンを予測するために、マスク・アンド・置換拡散戦略を持つ離散拡散モデルを採用する。微調整段階では、限られたロボットデータセットで低レベルの行動学習を導くために、想像された未来のビデオを利用する。実験により、本手法が、プランニングのために忠実度の高い未来映像を生成し、従来の最先端アプローチと比較して、優れた性能で微調整されたポリシーを強化することが実証された。プロジェクトのウェブサイトはhttps://video-diff.github.io/。

要約(オリジナル)

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.

arxiv情報

著者 Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li
発行日 2024-10-03 15:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

SuperGS: Super-Resolution 3D Gaussian Splatting via Latent Feature Field and Gradient-guided Splitting

要約

近年、3Dガウス散布法(3DGS)は、そのリアルタイムレンダリング機能と優れた品質により、新規ビュー合成に優れている。しかし、低解像度の入力ビューから得られるプリミティブの粗い性質のため、高解像度の新規ビュー合成(HRNVS)には課題がある。この問題に対処するため、我々は超解像3DGS(SuperGS)を提案する。SuperGSは3DGSの拡張であり、2段階の粗から細への学習フレームワークで設計され、超解像最適化のための初期化として事前学習された低解像度シーン表現を利用する。さらに、柔軟な特徴サンプリングのために潜在特徴フィールドを組み込む多解像度特徴ガウス分割(MFGS)と、効果的なガウスアップサンプリングのために勾配誘導選択分割(GSS)を導入する。これらの戦略を粗から細へのフレームワーク内に統合することで、高い忠実度とメモリ効率の両方を保証する。広範な実験により、SuperGSは、低解像度の入力のみを用いた困難な実世界のデータセットにおいて、最先端のHRNVS手法を凌駕することが実証された。

要約(オリジナル)

Recently, 3D Gaussian Splatting (3DGS) has exceled in novel view synthesis with its real-time rendering capabilities and superior quality. However, it faces challenges for high-resolution novel view synthesis (HRNVS) due to the coarse nature of primitives derived from low-resolution input views. To address this issue, we propose Super-Resolution 3DGS (SuperGS), which is an expansion of 3DGS designed with a two-stage coarse-to-fine training framework, utilizing pretrained low-resolution scene representation as an initialization for super-resolution optimization. Moreover, we introduce Multi-resolution Feature Gaussian Splatting (MFGS) to incorporates a latent feature field for flexible feature sampling and Gradient-guided Selective Splitting (GSS) for effective Gaussian upsampling. By integrating these strategies within the coarse-to-fine framework ensure both high fidelity and memory efficiency. Extensive experiments demonstrate that SuperGS surpasses state-of-the-art HRNVS methods on challenging real-world datasets using only low-resolution inputs.

arxiv情報

著者 Shiyun Xie,Zhiru Wang,Yinghao Zhu,Chengwei Pan
発行日 2024-10-03 15:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Combining Pre- and Post-Demosaicking Noise Removal for RAW Video

要約

ノイズ除去は、カメラセンサーによって取り込まれたデータを表示可能な画像やビデオに変換する処理パイプラインの基本ステップの1つである。一般的にはパイプラインの初期段階、通常はデモザイク処理の前に実行されるが、その順序を入れ替えたり、あるいは合同で実施する研究も提案されている。ディープラーニングの登場により、ノイズ除去アルゴリズムの品質は着実に向上している。それでも、最新のニューラルネットワークは、実世界のアプリケーションに不可欠な、新しいノイズレベルやシーンに適応するのに苦労している。このような背景から、我々は、ベイヤーパターンのCFAビデオデータに対して、デモザイク前デノイザーとデモザイク後デノイザーの両方を重み付けする、自己相似性に基づくノイズ除去スキームを提案する。この2つのバランスが画質を向上させることを示し、経験的にノイズレベルが高いほど、デモザイク前の影響力が高い方が有益であることを見出す。また、それぞれのノイズ除去の前に、時間的軌跡のプレフィルタリングステップを統合することで、テクスチャ再構成をさらに改善する。提案手法は、センサーにおけるノイズモデルの推定を必要とするだけであり、どのようなノイズレベルにも正確に適応し、最先端の技術に引けを取らないため、実世界のビデオ撮影に適している。

要約(オリジナル)

Denoising is one of the fundamental steps of the processing pipeline that converts data captured by a camera sensor into a display-ready image or video. It is generally performed early in the pipeline, usually before demosaicking, although studies swapping their order or even conducting them jointly have been proposed. With the advent of deep learning, the quality of denoising algorithms has steadily increased. Even so, modern neural networks still have a hard time adapting to new noise levels and scenes, which is indispensable for real-world applications. With those in mind, we propose a self-similarity-based denoising scheme that weights both a pre- and a post-demosaicking denoiser for Bayer-patterned CFA video data. We show that a balance between the two leads to better image quality, and we empirically find that higher noise levels benefit from a higher influence pre-demosaicking. We also integrate temporal trajectory prefiltering steps before each denoiser, which further improve texture reconstruction. The proposed method only requires an estimation of the noise model at the sensor, accurately adapts to any noise level, and is competitive with the state of the art, making it suitable for real-world videography.

arxiv情報

著者 Marco Sánchez-Beeckman,Antoni Buades,Nicola Brandonisio,Bilel Kanoun
発行日 2024-10-03 15:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV, I.4 | コメントする

An Improved Variational Method for Image Denoising

要約

全変動(TV)法は、画像の全変動を最小化することによってノイズを低減することを目的とした画像ノイズ除去技術であり、画素強度の変動を測定する。TV法は、エッジを保存し、画質を向上させることができるため、画像処理やコンピュータビジョンに広く応用されている。本論文では、画像ノイズ除去のための改良されたTVモデルと、それを実行するための数値アルゴリズムを提案する。改良されたモデルは一意解を持ち、関連する数値アルゴリズムは収束を保証する。数値実験により、他のTVモデルと比較して改善された有効性とノイズ除去品質を示すことが実証された。このような有望な結果は、画像処理におけるTV法の有用性をさらに高めるものである。

要約(オリジナル)

The total variation (TV) method is an image denoising technique that aims to reduce noise by minimizing the total variation of the image, which measures the variation in pixel intensities. The TV method has been widely applied in image processing and computer vision for its ability to preserve edges and enhance image quality. In this paper, we propose an improved TV model for image denoising and the associated numerical algorithm to carry out the procedure, which is particularly effective in removing several types of noises and their combinations. Our improved model admits a unique solution and the associated numerical algorithm guarantees the convergence. Numerical experiments are demonstrated to show improved effectiveness and denoising quality compared to other TV models. Such encouraging results further enhance the utility of the TV method in image processing.

arxiv情報

著者 Jing-En Huang,Jia-Wei Liao,Ku-Te Lin,Yu-Ju Tsai,Mei-Heng Yueh
発行日 2024-10-03 15:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.NA, math.NA | コメントする

IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers

要約

近年、車載モニタリングは、ドライバーの異常状態を早期に検知し、交通事故を未然に防ぐためのタイムリーなアラートを提供する有望な技術として注目されている。マルチモーダルデータを用いたモデルの学習は、異常状態検出の信頼性を向上させるが、ラベル付けされたデータの少なさやクラス分布の不均衡が、重要な異常状態の特徴の抽出を阻害し、学習性能を著しく悪化させる。さらに、環境やハードウェアの制限によるモダリティの欠落は、異常状態識別の課題をさらに悪化させる。さらに重要なことは、特に高齢者介護において、乗客の異常な健康状態を監視することが最も重要であるが、まだ十分に研究されていないことである。このような課題に対処するために、我々はIC3Mを紹介する。IC3Mは、車内のドライバーと同乗者の両方をモニタリングするための、効率的なカメラ回転ベースのマルチモーダルフレームワークである。IC3Mは、適応的閾値擬似ラベリング戦略と欠落モダリティ再構成の2つの主要モジュールから構成される。前者は、クラス分布に基づいて異なるクラスの擬似ラベリング閾値をカスタマイズし、クラスバランスの取れた擬似ラベルを生成してモデル学習を効果的に導く。後者は、限られたラベルから学習したクロスモダリティ関係を活用し、利用可能なモダリティから分布を転送することで欠損モダリティを正確に復元する。広範な実験結果から、IC3Mは、限られたラベル付きデータと深刻な欠損モダリティの下で、優れた頑健性を示しながら、精度、精度、再現率において最先端のベンチマークを上回ることが実証された。

要約(オリジナル)

Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.

arxiv情報

著者 Zihan Fang,Zheng Lin,Senkang Hu,Hangcheng Cao,Yiqin Deng,Xianhao Chen,Yuguang Fang
発行日 2024-10-03 15:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SY, eess.SY | コメントする

High-Efficiency Neural Video Compression via Hierarchical Predictive Learning

要約

強化されたDeep Hierarchical Video Compression-DHVC 2.0が発表された。この単一モデルのニューラル・ビデオ・コーデックは、広範なビットレートで動作し、代表的な方法よりも優れた圧縮性能を実現するだけでなく、標準的なGPU上で大幅に少ないメモリフットプリントでリアルタイム処理を可能にする、驚異的な複雑さ効率も実現します。これらの顕著な進歩は、階層的予測符号化の使用から生じています。各ビデオフレームは、階層的変分オートエンコーダによってマルチスケール表現に一様に変換される。フレームの特定のスケールの特徴表現に対して、対応する潜在的な残差変数は、同じフレームから低スケールの空間的特徴を参照することによって生成され、次に、前のフレームからの同じスケールの時間的参照と現在のフレームの低スケールの空間的参照を使用してパラメータが予測される確率的モデルを使用して条件付きエントロピー符号化される。この特徴空間処理は、各フレームの最低スケールから最高スケールまで動作するため、数十年にわたってビデオコーデックで標準的に使用されてきた、複雑で負荷の高い動き推定と補正技術を完全に排除することができる。階層的アプローチは並列処理を容易にし、エンコードとデコードの両方を高速化し、伝送に適したプログレッシブデコードをサポートするため、パケットロスが存在するネットワークビデオアプリケーションに特に有利です。ソースコードも公開予定。

要約(オリジナル)

The enhanced Deep Hierarchical Video Compression-DHVC 2.0-has been introduced. This single-model neural video codec operates across a broad range of bitrates, delivering not only superior compression performance to representative methods but also impressive complexity efficiency, enabling real-time processing with a significantly smaller memory footprint on standard GPUs. These remarkable advancements stem from the use of hierarchical predictive coding. Each video frame is uniformly transformed into multiscale representations through hierarchical variational autoencoders. For a specific scale’s feature representation of a frame, its corresponding latent residual variables are generated by referencing lower-scale spatial features from the same frame and then conditionally entropy-encoded using a probabilistic model whose parameters are predicted using same-scale temporal reference from previous frames and lower-scale spatial reference of the current frame. This feature-space processing operates from the lowest to the highest scale of each frame, completely eliminating the need for the complexity-intensive motion estimation and compensation techniques that have been standard in video codecs for decades. The hierarchical approach facilitates parallel processing, accelerating both encoding and decoding, and supports transmission-friendly progressive decoding, making it particularly advantageous for networked video applications in the presence of packet loss. Source codes will be made available.

arxiv情報

著者 Ming Lu,Zhihao Duan,Wuyang Cong,Dandan Ding,Fengqing Zhu,Zhan Ma
発行日 2024-10-03 15:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする

BinaryDM: Accurate Weight Binarization for Efficient Diffusion Models

要約

拡散モデル(DM)の高度化と計算量の大幅な増加に伴い、コンパクトで効率的な低ビットDMを得るための実用的なソリューションとして量子化が登場した。しかし、高度に離散的な表現は深刻な精度劣化をもたらし、超低ビット幅への拡散モデルの量子化を妨げる。本論文では、DMのための新しい重み2値化アプローチ、すなわちBinaryDMを提案し、表現と最適化を改善することにより、2値化DMを高精度で効率的なものに押し上げる。表現の観点からは、DMを全精度から正確な2値化へと滑らかに進化させることを可能にするEvolvable-Basis Binarizer (EBB)を提示する。EBBは、初期段階では複数の2値基底を柔軟に組み合わせることで情報表現を強化し、正則化を適用して効率的な単一基底2値化へと進化させる。この進化は、学習の安定性を保つために、DMアーキテクチャの先頭と最後尾でのみ起こる。最適化の観点から、2値化DMの最適化を支援するために低ランク表現模倣(LRM)が適用される。LRMは、低ランク空間における全精度DMの表現を模倣し、細粒度アライメントに起因する最適化プロセスの方向性の曖昧さを緩和する。包括的な実験により、BinaryDMは、超低ビット幅のDMのSOTA量子化手法と比較して、大幅な精度と効率の向上を達成することが実証された。1ビットの重みと4ビットの活性化(W1A4)により、BinaryDMは7.74という低いFIDを達成し、性能の崩壊(ベースラインFID 10.87)を防いだ。拡散モデルのための最初の二値化手法として、W1A4 BinaryDMは、15.2倍のOPと29.2倍のモデルサイズの節約を達成し、エッジ展開のための大きな可能性を示しています。

要約(オリジナル)

With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. This paper proposes a novel weight binarization approach for DMs, namely BinaryDM, pushing binarized DMs to be accurate and efficient by improving the representation and optimization. From the representation perspective, we present an Evolvable-Basis Binarizer (EBB) to enable a smooth evolution of DMs from full-precision to accurately binarized. EBB enhances information representation in the initial stage through the flexible combination of multiple binary bases and applies regularization to evolve into efficient single-basis binarization. The evolution only occurs in the head and tail of the DM architecture to retain the stability of training. From the optimization perspective, a Low-rank Representation Mimicking (LRM) is applied to assist the optimization of binarized DMs. The LRM mimics the representations of full-precision DMs in low-rank space, alleviating the direction ambiguity of the optimization process caused by fine-grained alignment. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. With 1-bit weight and 4-bit activation (W1A4), BinaryDM achieves as low as 7.74 FID and saves the performance from collapse (baseline FID 10.87). As the first binarization method for diffusion models, W1A4 BinaryDM achieves impressive 15.2x OPs and 29.2x model size savings, showcasing its substantial potential for edge deployment.

arxiv情報

著者 Xingyu Zheng,Xianglong Liu,Haotong Qin,Xudong Ma,Mingyuan Zhang,Haojie Hao,Jiakai Wang,Zixiang Zhao,Jinyang Guo,Michele Magno
発行日 2024-10-03 15:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

NL-Eye: Abductive NLI for Images

要約

視覚言語モデル(VLM)ベースのボットは、床が濡れていることを検知したら、滑ることを警告するのだろうか?最近のVLMは素晴らしい能力を示しているが、その結果と原因を推論する能力はまだ未解明である。そこで、VLMの視覚的アブダクティブ推論能力を評価するために設計されたベンチマーク、NL-Eyeを紹介する。NL-Eyeは、自然言語推論(NLI)タスクを視覚領域に適応させたもので、前提画像に基づく仮説画像の妥当性を評価し、その決定を説明することをモデルに要求する。NL-Eyeは、物理的、機能的、論理的、感情的、文化的、社会的といった多様な推論カテゴリにまたがる、注意深くキュレーションされた350のトリプレット例(1,050画像)から構成される。データ・キュレーション・プロセスには、テキスト記述の作成と、テキストから画像への変換モデルを用いた画像生成という2つのステップが含まれ、いずれも高品質で難易度の高いシーンを確保するために、人間の関与が大きく必要とされた。我々の実験によれば、VLMはNL-Eyeでかなり苦戦し、しばしばランダムなベースラインレベルのパフォーマンスを示した。これは、最新のVLMのアブダクティブな推論能力の欠如を示している。NL-Eyeは、事故防止ボットや生成されたビデオ検証を含む実世界のアプリケーションのために、頑健なマルチモーダル推論が可能なVLMを開発するための重要な一歩となる。

要約(オリジナル)

Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs’ visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps – writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.

arxiv情報

著者 Mor Ventura,Michael Toker,Nitay Calderon,Zorik Gekhman,Yonatan Bitton,Roi Reichart
発行日 2024-10-03 15:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

要約

Qwen2-VLは、従来のQwen-VLをさらに進化させたモデルであり、従来の視覚処理における決められた解像度のアプローチを再定義する。Qwen2-VLは、ナイーブ・ダイナミック・レゾリューション(Naive Dynamic Resolution)機構を導入し、解像度の異なる画像を異なる視覚トークン数に動的に処理することを可能にします。このアプローチにより、人間の知覚プロセスに近い、より効率的で正確な視覚表現を生成することができます。また、このモデルはマルチモーダルロータリー位置埋め込み(M-RoPE)を統合し、テキスト、画像、動画にまたがる位置情報の効果的な融合を促進する。画像と動画の両方を処理する統一的なパラダイムを採用することで、モデルの視覚認識能力を高めている。大規模マルチモーダルモデルの可能性を探るため、Qwen2-VLは大規模視覚言語モデル(LVLM)のスケーリング則を調査しています。Qwen2-VLシリーズは、モデルサイズ(2B、8B、72Bのパラメータを持つバージョン)と学習データ量の両方をスケーリングすることで、非常に競争力の高い性能を達成しています。特に、Qwen2-VL-72B モデルは、様々なマルチモーダルベンチマークにおいて、GPT-4o や Claude3.5-Sonnet などの主要モデルに匹敵する結果を達成し、他のジェネラリストモデルを凌駕しています。コードは https://github.com/QwenLM/Qwen2-VL で入手可能です。

要約(オリジナル)

We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model’s visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL .

arxiv情報

著者 Peng Wang,Shuai Bai,Sinan Tan,Shijie Wang,Zhihao Fan,Jinze Bai,Keqin Chen,Xuejing Liu,Jialin Wang,Wenbin Ge,Yang Fan,Kai Dang,Mengfei Du,Xuancheng Ren,Rui Men,Dayiheng Liu,Chang Zhou,Jingren Zhou,Junyang Lin
発行日 2024-10-03 15:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering

要約

GI-GSは、3Dガウス・スプラッティング(3DGS)とディファード・シェーディングを活用し、フォトリアリスティックな新しいビュー合成とリライティングを実現する、新しいインバース・レンダリング・フレームワークである。インバースレンダリングにおいて、オブジェクトのシェーディングプロセスを正確にモデル化することは、忠実度の高い結果を得るために不可欠である。したがって、シーンを横切って複数回バウンスした後にオブジェクトに到達する間接照明を考慮するために、グローバル照明を組み込むことが重要です。これまでの3DGSベースの手法では、間接照明を学習可能な照明ボリュームまたは各ガウスの追加属性として特徴付けることで、間接照明のモデル化を試みてきました。しかし、これらの方法は、光とオブジェクト間の複雑な物理的相互作用を正確にモデル化することができず、再照明時に現実的な間接照明を構築することが不可能である。この限界に対処するために、我々は、遅延シェーディングを用いた効率的なパストレーシングを用いて間接照明を計算することを提案する。我々のフレームワークでは、まずシーンの詳細なジオメトリとマテリアル特性をキャプチャするためにGバッファをレンダリングする。その後、直接照明のためだけに物理ベースレンダリング(PBR)を実行する。Gバッファと以前のレンダリング結果を用いて、軽量なパストレーシングによって間接照明を計算することができる。本手法は、任意の照明条件下で間接照明を効果的にモデル化することにより、より優れた新規ビュー合成と再照明を実現する。定量的かつ定性的な結果は、我々のGI-GSがレンダリング品質と効率の両方において既存のベースラインを上回ることを示している。

要約(オリジナル)

We present GI-GS, a novel inverse rendering framework that leverages 3D Gaussian Splatting (3DGS) and deferred shading to achieve photo-realistic novel view synthesis and relighting. In inverse rendering, accurately modeling the shading processes of objects is essential for achieving high-fidelity results. Therefore, it is critical to incorporate global illumination to account for indirect lighting that reaches an object after multiple bounces across the scene. Previous 3DGS-based methods have attempted to model indirect lighting by characterizing indirect illumination as learnable lighting volumes or additional attributes of each Gaussian, while using baked occlusion to represent shadow effects. These methods, however, fail to accurately model the complex physical interactions between light and objects, making it impossible to construct realistic indirect illumination during relighting. To address this limitation, we propose to calculate indirect lighting using efficient path tracing with deferred shading. In our framework, we first render a G-buffer to capture the detailed geometry and material properties of the scene. Then, we perform physically-based rendering (PBR) only for direct lighting. With the G-buffer and previous rendering results, the indirect lighting can be calculated through a lightweight path tracing. Our method effectively models indirect lighting under any given lighting conditions, thereby achieving better novel view synthesis and relighting. Quantitative and qualitative results show that our GI-GS outperforms existing baselines in both rendering quality and efficiency.

arxiv情報

著者 Hongze Chen,Zehong Lin,Jun Zhang
発行日 2024-10-03 15:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする