Distillation Scaling Laws

要約

計算予算と学生と教師間の割り当てに基づいて蒸留モデルのパフォーマンスを推定する蒸留スケーリング法を提供します。
私たちの調査結果は、大規模な蒸留を使用することに関連するリスクを減らします。
教師モデルと学生モデルの両方に割り当てを計算することで、生徒のパフォーマンスを最大化することができます。
1)教師が存在する場合、または2)教師がトレーニングを必要とする場合のために、最適な蒸留レシピを計算します。
多くの生徒が蒸留される場合、または教師がすでに存在する場合、蒸留は、学生のサイズで予測可能に成長する計算レベルまで、監視された事前に監視された前登録を上回ります。
1人の生徒が蒸留され、教師もトレーニングを必要とする場合、代わりに監督された学習を行う必要があります。
さらに、蒸留に関する大規模な研究全体に洞察を提供し、蒸留の理解を高め、実験設計を通知します。

要約(オリジナル)

We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

arxiv情報

著者 Dan Busbridge,Amitis Shidani,Floris Weers,Jason Ramapuram,Etai Littwin,Russ Webb
発行日 2025-02-12 17:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Distillation Scaling Laws はコメントを受け付けていません

Interactive incremental learning of generalizable skills with local trajectory modulation

要約

デモンストレーション(LFD)からの学習における一般化の問題は、特に多くのアプローチが出現した動きのプリミティブの文脈の中で、長年にわたってかなりの注目を集めてきました。
最近、2つの重要なアプローチが認識されています。
1つは、実証された軌道を変調することにより地域でスキルを順番に調整するためにポイント経由で活用しますが、もう1つは、一般化の確率の製品を使用して、さまざまな座標系に関して動きをエンコードするいわゆるタスクパラメーターモデルに依存しています。
前者は正確な、ローカル変調に適していますが、後者はワークスペースの大規模な領域を一般化することを目指しており、しばしば複数のオブジェクトを伴います。
両方のアプローチを同時に活用することにより、一般化の質に対処することはほとんど注目されていません。
この作業では、軌跡分布のローカルおよびグローバルな変調を同時に活用するインタラクティブな模倣学習フレームワークを提案します。
カーネル化されたムーブメントプリミティブ(KMP)フレームワークに基づいて、直接的な人間の矯正フィードバックからスキル変調の新しいメカニズムを紹介します。
私たちのアプローチは、特にviaポイントの概念を徐々にインタラクティブに活用します。1)モデルの精度を局所的に改善し、2)実行中にタスクに新しいオブジェクトを追加し、3)デモンストレーションが提供されていない領域にスキルを拡張します。
トルク制御された7-DOF、DLR SARAロボットを使用して、ベアリングリングロードタスクでの方法を評価します。

要約(オリジナル)

The problem of generalization in learning from demonstration (LfD) has received considerable attention over the years, particularly within the context of movement primitives, where a number of approaches have emerged. Recently, two important approaches have gained recognition. While one leverages via-points to adapt skills locally by modulating demonstrated trajectories, another relies on so-called task-parameterized models that encode movements with respect to different coordinate systems, using a product of probabilities for generalization. While the former are well-suited to precise, local modulations, the latter aim at generalizing over large regions of the workspace and often involve multiple objects. Addressing the quality of generalization by leveraging both approaches simultaneously has received little attention. In this work, we propose an interactive imitation learning framework that simultaneously leverages local and global modulations of trajectory distributions. Building on the kernelized movement primitives (KMP) framework, we introduce novel mechanisms for skill modulation from direct human corrective feedback. Our approach particularly exploits the concept of via-points to incrementally and interactively 1) improve the model accuracy locally, 2) add new objects to the task during execution and 3) extend the skill into regions where demonstrations were not provided. We evaluate our method on a bearing ring-loading task using a torque-controlled, 7-DoF, DLR SARA robot.

arxiv情報

著者 Markus Knauer,Alin Albu-Schäffer,Freek Stulp,João Silvério
発行日 2025-02-12 17:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Interactive incremental learning of generalizable skills with local trajectory modulation はコメントを受け付けていません

Quantifying Security Vulnerabilities: A Metric-Driven Security Analysis of Gaps in Current AI Standards

要約

AIシステムが重要なインフラストラクチャに統合するにつれて、AIコンプライアンスフレームワークのセキュリティギャップは緊急の注意を要求します。
このペーパーでは、NIST AI RMF 1.0、UKのAIおよびデータ保護リスクツールキット、およびEUのAltaiの3つの主要なAIガバナンス基準のセキュリティリスクを監査および定量化します。
新しいリスク評価方法を使用して、4つの重要なメトリックを開発します:リスク重大度インデックス(RSI)、攻撃潜在指数(AVPI)、コンプライアンスセキュリティギャップ率(CSGP)、および根本原因の脆弱性スコア(RCV)。
私たちの分析は、フレームワーク全体にわたって136の懸念を特定し、重要なギャップを公開します。
NISTは特定されたリスクの69.23%に対処できず、Altaiは攻撃ベクターの脆弱性が最も高く(AVPI = 0.51)、ICOツールキットには最大のコンプライアンスセキュリティギャップがあり、リスクの高い懸念の80.00%が未解決のままです。
根本原因分析は、重大な弱点として、過小定義されたプロセス(Altai RCVS = 033)および弱い実装ガイダンス(NISTおよびICO RCVS = 0.25)を強調しています。
これらの調査結果は、AIコンプライアンスにおけるより強力で強制力のあるセキュリティ管理の必要性を強調しています。
セキュリティの姿勢を強化し、コンプライアンスと現実世界のAIリスクのギャップを埋めるためのターゲットを絞った推奨事項を提供します。

要約(オリジナル)

As AI systems integrate into critical infrastructure, security gaps in AI compliance frameworks demand urgent attention. This paper audits and quantifies security risks in three major AI governance standards: NIST AI RMF 1.0, UK’s AI and Data Protection Risk Toolkit, and the EU’s ALTAI. Using a novel risk assessment methodology, we develop four key metrics: Risk Severity Index (RSI), Attack Potential Index (AVPI), Compliance-Security Gap Percentage (CSGP), and Root Cause Vulnerability Score (RCVS). Our analysis identifies 136 concerns across the frameworks, exposing significant gaps. NIST fails to address 69.23 percent of identified risks, ALTAI has the highest attack vector vulnerability (AVPI = 0.51) and the ICO Toolkit has the largest compliance-security gap, with 80.00 percent of high-risk concerns remaining unresolved. Root cause analysis highlights under-defined processes (ALTAI RCVS = 033) and weak implementation guidance (NIST and ICO RCVS = 0.25) as critical weaknesses. These findings emphasize the need for stronger, enforceable security controls in AI compliance. We offer targeted recommendations to enhance security posture and bridge the gap between compliance and real-world AI risks.

arxiv情報

著者 Keerthana Madhavan,Abbas Yazdinejad,Fattane Zarrinkalam,Ali Dehghantanha
発行日 2025-02-12 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Quantifying Security Vulnerabilities: A Metric-Driven Security Analysis of Gaps in Current AI Standards はコメントを受け付けていません

Evaluating the Performance of ChatGPT for Spam Email Detection

要約

電子メールは引き続き極めて重要であり、専門的および商業的なドメイン内でコミュニケーション媒体を広く利用しています。
それにもかかわらず、スパム電子メールの有病率は、ユーザーにとって大きな課題をもたらし、日常生活を混乱させ、生産性を低下させます。
その結果、コンテンツに基づいてスパムを正確に識別およびフィルタリングすることが、サイバーセキュリティにとって重要になりました。
自然言語処理の最近の進歩、特にChatGPTのような大規模な言語モデルでは、質問の回答やテキスト生成などのタスクで顕著なパフォーマンスが示されています。
ただし、スパム識別におけるその可能性は未脱カタリングのままです。
ギャップを埋めるために、この調査では、英語と中国の電子メールデータセットの両方でスパム識別のためのChatGPTの機能を評価しようとします。
コンテキスト内学習を使用したスパムメール検出にChatGptを使用しています。
また、プロンプトのデモの数がChatGPTのパフォーマンスにどのように影響するかを調査します。
比較のために、ナイーブベイズ、サポートベクターマシン(SVM)、ロジスティック回帰(LR)、フィードフォワード密度の高いニューラルネットワーク(DNN)、およびBERT分類器など、5つの一般的なベンチマークメソッドも実装しています。
大規模な実験を通じて、CHATGPTのパフォーマンスは、大規模な英語データセットの深い監視された学習方法よりも著しく悪化していますが、低資源の中国のデータセットで優れたパフォーマンスを示しています。
この研究は、スパム識別のためのChATGPTの潜在能力と制限に関する洞察を提供し、リソースに制約のある言語ドメインの実行可能なソリューションとしての可能性を強調しています。

要約(オリジナル)

Email continues to be a pivotal and extensively utilized communication medium within professional and commercial domains. Nonetheless, the prevalence of spam emails poses a significant challenge for users, disrupting their daily routines and diminishing productivity. Consequently, accurately identifying and filtering spam based on content has become crucial for cybersecurity. Recent advancements in natural language processing, particularly with large language models like ChatGPT, have shown remarkable performance in tasks such as question answering and text generation. However, its potential in spam identification remains underexplored. To fill in the gap, this study attempts to evaluate ChatGPT’s capabilities for spam identification in both English and Chinese email datasets. We employ ChatGPT for spam email detection using in-context learning, which requires a prompt instruction with (or without) a few demonstrations. We also investigate how the number of demonstrations in the prompt affects the performance of ChatGPT. For comparison, we also implement five popular benchmark methods, including naive Bayes, support vector machines (SVM), logistic regression (LR), feedforward dense neural networks (DNN), and BERT classifiers. Through extensive experiments, the performance of ChatGPT is significantly worse than deep supervised learning methods in the large English dataset, while it presents superior performance on the low-resourced Chinese dataset. This study provides insights into the potential and limitations of ChatGPT for spam identification, highlighting its potential as a viable solution for resource-constrained language domains.

arxiv情報

著者 Shijing Si,Yuwei Wu,Le Tang,Yugui Zhang,Jedrek Wosik,Qinliang Su
発行日 2025-02-12 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Evaluating the Performance of ChatGPT for Spam Email Detection はコメントを受け付けていません

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

要約

大規模な言語モデル(LLMS)は、多肢選択の質問(QA)タスクとしてしばしば構成される挑戦的なベンチマークで顕著なパフォーマンスを実現します。
ゼロショットチェーンオブ考え(COT)プロンプトは、LLMSの推論を強化しますが、あいまいで一般的なガイダンスのみを提供します(「段階的に考えてください」)。
このペーパーでは、QA解決に3つの重要なステップを明示的に組み込んだ直感的で効果的なゼロショットプロンプトメソッドであるARRを紹介します。質問の意図の分析、関連情報の取得、推論の段階的な推論です。
多様で挑戦的なQAタスクにわたる包括的な実験は、ARRがベースラインを一貫して(ARRプロンプトなしで)改善し、COTを上回ることを示しています。
アブレーションとケーススタディは、各コンポーネントの肯定的な貢献をさらに検証します:分析、取得、推論。
特に、意図分析はarrで重要な役割を果たします。
さらに、さまざまなモデルサイズ、LLMシリーズ、および生成設定にわたる広範な評価が、arrの有効性、堅牢性、および一般化可能性を固めます。

要約(オリジナル)

Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance (‘think step by step’). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

arxiv情報

著者 Yuwei Yin,Giuseppe Carenini
発行日 2025-02-12 18:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning はコメントを受け付けていません

Ensemble based approach to quantifying uncertainty of LLM based classifications

要約

大規模な言語モデル(LLMS)の出力は、内部モデルのパラメーターとコンテキストウィンドウに提供される入力の関数です。
ここで提示されている仮説は、貪欲なサンプリング戦略の下で、LLMの出力の分散は、モデルのパラメトリック知識に埋め込まれた概念的確実性の関数であり、入力の語彙的分散の関数であるということです。
モデルを微調整すると、モデル出力の感度が語彙入力変動に対する感度が低下します。
これは、分類問題に適用され、予測クラスの確実性を推定するために確率的方法が提案されます。

要約(オリジナル)

The output of Large Language Models (LLMs) are a function of the internal model’s parameters and the input provided into the context window. The hypothesis presented here is that under a greedy sampling strategy the variance in the LLM’s output is a function of the conceptual certainty embedded in the model’s parametric knowledge, as well as the lexical variance in the input. Finetuning the model results in reducing the sensitivity of the model output to the lexical input variations. This is then applied to a classification problem and a probabilistic method is proposed for estimating the certainties of the predicted classes.

arxiv情報

著者 Srijith Rajamohan,Ahmed Salhin,Josh Frazier,Rohit Kumar,Yu-Cheng Tsai,Todd Cook
発行日 2025-02-12 18:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Ensemble based approach to quantifying uncertainty of LLM based classifications はコメントを受け付けていません

Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks

要約

脳は新しいコンテキストに迅速に適応し、限られたデータから学ぶことができます。これは、人工知能アルゴリズムが模倣に苦労しているという切望された特徴です。
神経細胞の機械的構造の振動リズムに触発され、リンク強度の振動に基づいた学習パラダイムを開発し、これらの振動の調整と学習することに関連しています。
このパラダイムは、人工ニューラルネットワークにおける迅速な適応と学習をもたらすことがわかります。
リンク振動は、調整を迅速に変化させ、ネットワークに微妙なコンテキストの変化を監視していない方法で感知する能力を与えます。
言い換えれば、ネットワークは、複数のコンテキストでダイナミクスを予測できるジェネラリストAIアーキテクチャとして実行するために必要な欠落しているコンテキストトークンを生成します。
また、振動により、ネットワークはダイナミクスを外挿して、これまでにないコンテキストに外挿することもできます。
これらの機能により、学習パラダイムは、学習と認知の新しいモデルの強力な出発点になります。
さらに、リンク調整による学習は、ニューラルネットワークアーキテクチャの詳細に対する不可知論者です。したがって、私たちの研究は、主要なAIモデルに迅速な適応と学習能力を導入するための扉を開きます。

要約(オリジナル)

The brain can rapidly adapt to new contexts and learn from limited data, a coveted characteristic that artificial intelligence algorithms have struggled to mimic. Inspired by oscillatory rhythms of the mechanical structures of neural cells, we developed a learning paradigm that is based on oscillations in link strengths and associates learning with the coordination of these oscillations. We find that this paradigm yields rapid adaptation and learning in artificial neural networks. Link oscillations can rapidly change coordination, endowing the network with the ability to sense subtle context changes in an unsupervised manner. In other words, the network generates the missing contextual tokens required to perform as a generalist AI architecture capable of predicting dynamics in multiple contexts. Oscillations also allow the network to extrapolate dynamics to never-seen-before contexts. These capabilities make our learning paradigm a powerful starting point for novel models of learning and cognition. Furthermore, learning through link coordination is agnostic to the specifics of the neural network architecture, hence our study opens the door for introducing rapid adaptation and learning capabilities into leading AI models.

arxiv情報

著者 Hoony Kang,Wolfgang Losert
発行日 2025-02-12 18:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS, nlin.AO, physics.bio-ph | Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks はコメントを受け付けていません

DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

要約

さまざまなタスクでテキスト間拡散モデルを広く使用しているにもかかわらず、計算およびメモリの要求は実用的なアプリケーションを制限しています。
この問題を軽減するために、拡散モデルの量子化が調査されています。
重量とアクティベーションを低ビット形式に圧縮することにより、メモリの使用量と計算コストを削減します。
ただし、既存の方法は、特に低ビット($ <$ 8ビット)の量子化において、画質とテキストイメージの両方の調整を維持するのに苦労しています。 この論文では、分布の観点からテキスト間拡散モデルを量子化することに関連する課題を分析します。 私たちの分析により、活性化外れ値が画質を決定する上で重要な役割を果たすことが明らかになりました。 さらに、クロスアテンションスコアの特徴的なパターンを特定し、テキストイメージのアライメントに大きな影響を与えます。 これらの課題に対処するために、分布認識グループ量子化(DGQ)を提案します。これは、画質を維持するためにピクセルごとのアウトレイとチャネルごとの外れ値を識別し、適応的に処理する方法です。 さらに、DGQは、テキストイメージのアライメントを維持するために、プロンプト固有の対数定量化スケールを適用します。 私たちの方法は、MS-COCOやPartipromptsなどのデータセットでの顕著なパフォーマンスを示しています。 私たちは、重量量子化パラメーターの追加の微調整を必要とせずに、テキストから画像への拡散モデルの低ビットの量子化を正常に達成した最初の人です。 コードはhttps://github.com/ugonfor/dgqで入手できます。

要約(オリジナル)

Despite the widespread use of text-to-image diffusion models across various tasks, their computational and memory demands limit practical applications. To mitigate this issue, quantization of diffusion models has been explored. It reduces memory usage and computational costs by compressing weights and activations into lower-bit formats. However, existing methods often struggle to preserve both image quality and text-image alignment, particularly in lower-bit($<$ 8bits) quantization. In this paper, we analyze the challenges associated with quantizing text-to-image diffusion models from a distributional perspective. Our analysis reveals that activation outliers play a crucial role in determining image quality. Additionally, we identify distinctive patterns in cross-attention scores, which significantly affects text-image alignment. To address these challenges, we propose Distribution-aware Group Quantization (DGQ), a method that identifies and adaptively handles pixel-wise and channel-wise outliers to preserve image quality. Furthermore, DGQ applies prompt-specific logarithmic quantization scales to maintain text-image alignment. Our method demonstrates remarkable performance on datasets such as MS-COCO and PartiPrompts. We are the first to successfully achieve low-bit quantization of text-to-image diffusion models without requiring additional fine-tuning of weight quantization parameters. Code is available at https://github.com/ugonfor/DGQ.

arxiv情報

著者 Hyogon Ryu,NaHyeon Park,Hyunjung Shim
発行日 2025-02-12 10:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models はコメントを受け付けていません

All You Need in Knowledge Distillation Is a Tailored Coordinate System

要約

知識蒸留(KD)は、大規模な教師から小規模な学生ネットワークに暗い知識を転送するのに不可欠です。そうすれば、生徒は教師よりもはるかに効率的になりますが、同等の正確さがあります。
ただし、既存のKDメソッドは、ターゲットタスク専用に訓練された大規模な教師に依存しています。これは非常に柔軟性があり、非効率的です。
この論文では、SSLに基づいたモデルが教師として効果的に機能し、その暗い知識は、機能がある座標系または線形サブスペースによってキャプチャできると主張します。その後、教師の1つのフォワードパスしか必要ありません。
次に、学生ネットワークの座標系(TCS)を調整します。
TCSメソッドは教師がいないため、多様なアーキテクチャに適用され、KDおよび実用的な少数の学習に適しています。
実験では、TCSは最先端のKDメソッドよりも大幅に高い精度を達成し、トレーニング時間とGPUメモリコストの約半分しか必要としないことが示されています。

要約(オリジナル)

Knowledge Distillation (KD) is essential in transferring dark knowledge from a large teacher to a small student network, such that the student can be much more efficient than the teacher but with comparable accuracy. Existing KD methods, however, rely on a large teacher trained specifically for the target task, which is both very inflexible and inefficient. In this paper, we argue that a SSL-pretrained model can effectively act as the teacher and its dark knowledge can be captured by the coordinate system or linear subspace where the features lie in. We then need only one forward pass of the teacher, and then tailor the coordinate system (TCS) for the student network. Our TCS method is teacher-free and applies to diverse architectures, works well for KD and practical few-shot learning, and allows cross-architecture distillation with large capacity gap. Experiments show that TCS achieves significantly higher accuracy than state-of-the-art KD methods, while only requiring roughly half of their training time and GPU memory costs.

arxiv情報

著者 Junjie Zhou,Ke Zhu,Jianxin Wu
発行日 2025-02-12 10:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | All You Need in Knowledge Distillation Is a Tailored Coordinate System はコメントを受け付けていません

BEAM: Bridging Physically-based Rendering and Gaussian Modeling for Relightable Volumetric Video

要約

ボリューム測定ビデオは、動的な3Dシーンをキャプチャし、仮想現実、教育、テレペランスのための多様なアプリケーションを可能にすることにより、没入型のエクスペリエンスを可能にします。
ただし、従来の方法は固定照明条件と闘っていますが、神経アプローチは、信頼できるシナリオの効率、品質、または適応性のトレードオフに直面しています。
これらの制限に対処するために、マルチビューRGB映像から高品質で信頼できるボリュームビデオビデオを生成するために、物理ベースのレンダリング(PBR)を備えた4Dガウス表現を橋渡しする新しいパイプラインであるBeam​​を提示します。
Beamは、利用可能な一連のガウスベースの手法を介して、詳細なジオメトリとPBR特性を回復します。
まず、ガウスベースのパフォーマンス追跡と、粗から洗練された最適化フレームワークでのジオメトリを意識したラスター化を組み合わせて、空間的および時間的に一貫したジオメトリを回復します。
PBRプロパティを段階的に組み込むことにより、ガウス属性をさらに強化します。
マルチビュー条件付き拡散モデルを介して粗さを生成し、2Dツー3D戦略を使用してAOとベースの色を導き出し、効率的な視認性計算のためにテーラードガウスベースのレイトレーサーを組み込んでいます。
回復すると、これらの動的で信頼できる資産は、従来のCGパイプラインにシームレスに統合され、延期されたシェーディングとレイトレースによるオフラインレンダリングでリアルタイムレンダリングをサポートします。
ビームは、多様な照明条件下で現実的でリアルな視覚化を提供することにより、インタラクティブなエンターテイメント、ストーリーテリング、創造的な視覚化のための新しい可能性を開きます。

要約(オリジナル)

Volumetric video enables immersive experiences by capturing dynamic 3D scenes, enabling diverse applications for virtual reality, education, and telepresence. However, traditional methods struggle with fixed lighting conditions, while neural approaches face trade-offs in efficiency, quality, or adaptability for relightable scenarios. To address these limitations, we present BEAM, a novel pipeline that bridges 4D Gaussian representations with physically-based rendering (PBR) to produce high-quality, relightable volumetric videos from multi-view RGB footage. BEAM recovers detailed geometry and PBR properties via a series of available Gaussian-based techniques. It first combines Gaussian-based performance tracking with geometry-aware rasterization in a coarse-to-fine optimization framework to recover spatially and temporally consistent geometries. We further enhance Gaussian attributes by incorporating PBR properties step by step. We generate roughness via a multi-view-conditioned diffusion model, and then derive AO and base color using a 2D-to-3D strategy, incorporating a tailored Gaussian-based ray tracer for efficient visibility computation. Once recovered, these dynamic, relightable assets integrate seamlessly into traditional CG pipelines, supporting real-time rendering with deferred shading and offline rendering with ray tracing. By offering realistic, lifelike visualizations under diverse lighting conditions, BEAM opens new possibilities for interactive entertainment, storytelling, and creative visualization.

arxiv情報

著者 Yu Hong,Yize Wu,Zhehao Shen,Chengcheng Guo,Yuheng Jiang,Yingliang Zhang,Jingyi Yu,Lan Xu
発行日 2025-02-12 10:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | BEAM: Bridging Physically-based Rendering and Gaussian Modeling for Relightable Volumetric Video はコメントを受け付けていません