ExAct: A Video-Language Benchmark for Expert Action Analysis

要約

熟練した身体的人間の活動を専門レベルの理解のための新しいビデオ言語ベンチマークを正確に提示します。
当社の新しいベンチマークには、6つのドメインで11の身体活動にまたがる352​​1の専門家でキュリットされたビデオ質問回答ペアが含まれています:スポーツ、自転車の修理、料理、健康、音楽、ダンス。
正確には、5つの慎重に設計された候補オプションから正しい答えを選択する必要があるため、物理的な人間のスキルについての微妙で細粒の専門家レベルの理解が必要です。
最近の最先端のVLMを正確に評価することは、人間の専門家のパフォーマンスに比べて実質的なパフォーマンスギャップを明らかにします。
具体的には、最高のパフォーマンスのGPT-4Oモデルは、訓練された人間の専門家/専門家が達成した82.02%をはるかに下回る44.70%の精度のみを達成しています。
私たちは、さまざまな物理的および手続き型ドメインにおける人間のスキルを正確に理解できるVLMの開発と評価に有益であると考えています。
データセットとコードはhttps://texaser.github.io/exact_project_page/で入手できます。

要約(オリジナル)

We present ExAct, a new video-language benchmark for expert-level understanding of skilled physical human activities. Our new benchmark contains 3521 expert-curated video question-answer pairs spanning 11 physical activities in 6 domains: Sports, Bike Repair, Cooking, Health, Music, and Dance. ExAct requires the correct answer to be selected from five carefully designed candidate options, thus necessitating a nuanced, fine-grained, expert-level understanding of physical human skills. Evaluating the recent state-of-the-art VLMs on ExAct reveals a substantial performance gap relative to human expert performance. Specifically, the best-performing GPT-4o model achieves only 44.70% accuracy, well below the 82.02% attained by trained human specialists/experts. We believe that ExAct will be beneficial for developing and evaluating VLMs capable of precise understanding of human skills in various physical and procedural domains. Dataset and code are available at https://texaser.github.io/exact_project_page/

arxiv情報

著者 Han Yi,Yulu Pan,Feihong He,Xinyu Liu,Benjamin Zhang,Oluwatumininu Oguntola,Gedas Bertasius
発行日 2025-06-06 17:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ExAct: A Video-Language Benchmark for Expert Action Analysis はコメントを受け付けていません

CoMemo: LVLMs Need Image Context with Image Memory

要約

大規模な言語モデルに基づいて構築された大規模な視覚言語モデルの最近の進歩により、視覚的特徴は、LLM表現を支配的なパラダイムとして確立しました。
ただし、継承されたLLMアーキテクチャデザインは、マルチモーダル処理の最適な特性を導入します。
第一に、LVLMSは注意割り当てでバイモーダル分布を示し、コンテキストが拡大するにつれて中央の視覚コンテンツの進行性の無視につながります。
第二に、動的な高解像度画像を処理する際に、従来の位置エンコーディングスキームは、重要な2D構造関係を維持できません。
これらの制限に対処するために、COMEMOを提案します。これは、コンテキストイメージパスと視覚処理のための画像メモリパスを組み合わせたデュアルパスアーキテクチャを提案し、視覚情報の無視を効果的に緩和します。
さらに、サムネイルベースの位置凝集を使用して2D空間認識を維持しながら、拡張されたシーケンスでリモート崩壊を軽減する新しい位置エンコーディングメカニズムであるロープDHRを導入します。
長いコンテキストの理解、マルチイメージの推論、視覚的な質問への回答を含む7つのベンチマークにわたる評価は、従来のLVLMアーキテクチャと比較してCOMEMOの優れたパフォーマンスを示しています。
プロジェクトページは、https://lalbj.github.io/projects/comemo/で入手できます。

要約(オリジナル)

Recent advancements in Large Vision-Language Models built upon Large Language Models have established aligning visual features with LLM representations as the dominant paradigm. However, inherited LLM architectural designs introduce suboptimal characteristics for multimodal processing. First, LVLMs exhibit a bimodal distribution in attention allocation, leading to the progressive neglect of middle visual content as context expands. Second, conventional positional encoding schemes fail to preserve vital 2D structural relationships when processing dynamic high-resolution images. To address these limitations, we propose CoMemo – a dual-path architecture that combines a Context image path with an image Memory path for visual processing, effectively alleviating visual information neglect. Additionally, we introduce RoPE-DHR, a novel positional encoding mechanism that employs thumbnail-based positional aggregation to maintain 2D spatial awareness while mitigating remote decay in extended sequences. Evaluations across seven benchmarks,including long-context comprehension, multi-image reasoning, and visual question answering, demonstrate CoMemo’s superior performance compared to conventional LVLM architectures. Project page is available at https://lalbj.github.io/projects/CoMemo/.

arxiv情報

著者 Shi Liu,Weijie Su,Xizhou Zhu,Wenhai Wang,Jifeng Dai
発行日 2025-06-06 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoMemo: LVLMs Need Image Context with Image Memory はコメントを受け付けていません

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

要約

現代の地球観測(EO)は、センサーと地域全体で衛星画像のスケールと多様性を活用するために、ますます深い学習を活用しています。
最近の基礎モデルはEOタスク全体の有望な一般化を実証していますが、多くはトレーニングデータの規模、地理的カバレッジ、およびスペクトルの多様性によって制限されたままです。
この作業では、グローバルに分散したSentinel-1およびSentinel-2画像を活用して、大規模な空間タイルを組み合わせたスケーラブルな自己監視学習モデルであるTerraFMを紹介し、空間およびセマンティックカバレッジを豊かにするための土地被覆意識サンプリングを紹介します。
センシングモダリティを自己監視アプローチの自然な増強として扱うことにより、モダリティ固有のパッチ埋め込みと適応的な交差融合融合を介して、レーダーと光学入力を統合します。
当社のトレーニング戦略は、ローカルグローバルコントラスト学習を統合し、クラス周波数対応の正規化を組み込んで土地被覆の長期尾の分布に対処するデュアル中心メカニズムを導入します。TerraFMは、分類およびセグメンテーションタスクの両方で強力な一般化を達成し、ジオベンチとコペルニクスベンチの以前のモデルを上回っています。
当社のコードモデルと前処理されたモデルは、https://github.com/mbzuai-oryx/terrafmで公開されています。

要約(オリジナル)

Modern Earth observation (EO) increasingly leverages deep learning to harness the scale and diversity of satellite imagery across sensors and regions. While recent foundation models have demonstrated promising generalization across EO tasks, many remain limited by the scale, geographical coverage, and spectral diversity of their training data, factors critical for learning globally transferable representations. In this work, we introduce TerraFM, a scalable self-supervised learning model that leverages globally distributed Sentinel-1 and Sentinel-2 imagery, combined with large spatial tiles and land-cover aware sampling to enrich spatial and semantic coverage. By treating sensing modalities as natural augmentations in our self-supervised approach, we unify radar and optical inputs via modality-specific patch embeddings and adaptive cross-attention fusion. Our training strategy integrates local-global contrastive learning and introduces a dual-centering mechanism that incorporates class-frequency-aware regularization to address long-tailed distributions in land cover.TerraFM achieves strong generalization on both classification and segmentation tasks, outperforming prior models on GEO-Bench and Copernicus-Bench. Our code and pretrained models are publicly available at: https://github.com/mbzuai-oryx/TerraFM .

arxiv情報

著者 Muhammad Sohail Danish,Muhammad Akhtar Munir,Syed Roshaan Ali Shah,Muhammad Haris Khan,Rao Muhammad Anwer,Jorma Laaksonen,Fahad Shahbaz Khan,Salman Khan
発行日 2025-06-06 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation はコメントを受け付けていません

Exploring Diffusion Transformer Designs via Grafting

要約

モデルアーキテクチャの設計には、オペレーター(注意、畳み込みなど)や構成(深さ、幅など)の選択などの決定が必要です。
ただし、これらの決定がモデルの品質に与える影響を評価するには、費用のかかる事前トレーニングが必要であり、建築調査が制限されます。
既存のコードに新しいソフトウェアがどのように構築されているかに触発されて、私たちは次のように尋ねます:新しいアーキテクチャデザインは、前処理されたモデルを使用して研究することができますか?
この目的のために、先生的な拡散変圧器(DIT)を編集するための簡単なアプローチであるグラフトを提示して、小さな計算予算の下で新しいアーキテクチャを実現します。
活性化行動と注意の局所性の分析によって通知され、モデルの品質に対する移植の影響を研究するために、DIT-XL/2設計に基づいてテストベッドを構築します。
このテストベッドを使用して、移植を介してハイブリッドデザインのファミリーを開発します。ソフトマックスの注意をゲートの畳み込みに置き換え、局所的な注意と線形注意を払い、MLPを可変膨張比と畳み込みバリアントに置き換えます。
特に、多くのハイブリッドデザインは、2%未満の前削減計算を使用して、良質(FID:2.38-2.64対DIT-XL/2で2.27)を達成します。
次に、テキスト間モデル(PIXART-SIGMA)を接ぎ木し、Genevalスコアが2%未満の1.43倍のスピードアップを達成します。
最後に、グラフトを介してシーケンシャル変圧器ブロックのすべてのペアを平行ブロックに変換することにより、DIT-XL/2を再構築するケーススタディを提示します。
これにより、モデルの深さが2倍減少し、同等の深さの他のモデルよりも優れた品質(FID:2.77)が得られます。
一緒に、オペレーターの交換からアーキテクチャの再編に至るまで、新しい拡散モデルの設計が前提条件のDITを移植することで調査できることを示します。
コードと接ぎ木モデル:https://grafting.stanford.edu

要約(オリジナル)

Designing model architectures requires decisions such as selecting operators (e.g., attention, convolution) and configurations (e.g., depth, width). However, evaluating the impact of these decisions on model quality requires costly pretraining, limiting architectural investigation. Inspired by how new software is built on existing code, we ask: can new architecture designs be studied using pretrained models? To this end, we present grafting, a simple approach for editing pretrained diffusion transformers (DiTs) to materialize new architectures under small compute budgets. Informed by our analysis of activation behavior and attention locality, we construct a testbed based on the DiT-XL/2 design to study the impact of grafting on model quality. Using this testbed, we develop a family of hybrid designs via grafting: replacing softmax attention with gated convolution, local attention, and linear attention, and replacing MLPs with variable expansion ratio and convolutional variants. Notably, many hybrid designs achieve good quality (FID: 2.38-2.64 vs. 2.27 for DiT-XL/2) using <2% pretraining compute. We then graft a text-to-image model (PixArt-Sigma), achieving a 1.43x speedup with less than a 2% drop in GenEval score. Finally, we present a case study that restructures DiT-XL/2 by converting every pair of sequential transformer blocks into parallel blocks via grafting. This reduces model depth by 2x and yields better quality (FID: 2.77) than other models of comparable depth. Together, we show that new diffusion model designs can be explored by grafting pretrained DiTs, with edits ranging from operator replacement to architecture restructuring. Code and grafted models: https://grafting.stanford.edu

arxiv情報

著者 Keshigeyan Chandrasegaran,Michael Poli,Daniel Y. Fu,Dongjun Kim,Lea M. Hadzic,Manling Li,Agrim Gupta,Stefano Massaroli,Azalia Mirhoseini,Juan Carlos Niebles,Stefano Ermon,Li Fei-Fei
発行日 2025-06-06 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Exploring Diffusion Transformer Designs via Grafting はコメントを受け付けていません

Kinetics: Rethinking Test-Time Scaling Laws

要約

実用的な効率の観点からテスト時間のスケーリング法則を再考し、小さなモデルの有効性が大幅に過大評価されていることを明らかにしました。
計算最適性に基づいた以前の作業は、推論時間戦略によって導入された重要なメモリアクセスボトルネックを見落としています(たとえば、ベスト$ n $、ロングコット)。
0.6Bから32Bのパラメーターまでのモデルに及ぶ当社のホリスティック分析は、計算とメモリアクセスコストの両方を組み込むことにより、リソース割り当てをより適切にガイドする新しい動力学スケーリング法則を明らかにしています。
キネティックスのスケーリング法は、小さなものよりもしきい値よりも上のモデルで使用される場合、テスト時間計算がより効果的であることを示唆しています。
主な理由は、TTSでは、パラメーターカウントではなく注意が支配的なコスト係数として現れることです。
これにより動機付けられて、私たちは、トークンあたりのコストが低く、同じリソース予算内でより長い世代とより並列サンプルを可能にする、まばらな注意を中心とした新しいスケーリングパラダイムを提案します。
経験的には、まばらな注意モデルが一貫して密なカウンターパートを上回り、低コストのレジームで60ポイント以上の利益を達成し、高コストのレジームで5ポイント以上の利益を達成し、AIMEの問題解決精度を得るために、最先端のoesの評価を網羅していることを示しています。
これらの結果は、トレーニングとは異なり、精度が計算の関数としてまだ飽和しておらず、生成の増加を通じて改善し続けるテスト時間スケーリングの可能性を最大限に発揮するために、より多くのコンピューティングが投資されるにつれて、まばらな注意が不可欠であり、ますます重要であることを示唆しています。
このコードは、https://github.com/infini-ai-lab/kineticsで入手できます。

要約(オリジナル)

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-$N$, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential and increasingly important with more computing invested, for realizing the full potential of test-time scaling where, unlike training, accuracy has yet to saturate as a function of computation, and continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

arxiv情報

著者 Ranajoy Sadhukhan,Zhuoming Chen,Haizhong Zheng,Yang Zhou,Emma Strubell,Beidi Chen
発行日 2025-06-06 16:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Kinetics: Rethinking Test-Time Scaling Laws はコメントを受け付けていません

Teaming in the AI Era: AI-Augmented Frameworks for Forming, Simulating, and Optimizing Human Teams

要約

効果的なチームワークは、多様なドメインで不可欠です。
チームの形成段階では、重要な課題は、チーム全体の満足度を高めるためにユーザーの好みをタスクの目標と効果的にバランスさせるチームを形成することです。
チームのパフォーマンスステージでは、チームのパフォーマンスを維持するために、結束とエンゲージメントを維持することが重要です。
ただし、チームの最適化のための既存の計算ツールとアルゴリズムは、静的データ入力、狭いアルゴリズム目標、または特定のコンテキストに合わせたソリューションに依存していることが多く、チームメンバーの個性の動的な相互作用、進化する目標、および個々の好みの変化を考慮しません。
したがって、純粋にアルゴリズムの割り当ては、チームのダイナミクスが進化するにつれてメンバーが行動と相互作用を調整するのに役立つタイムリーでパーソナライズされたガイダンスがないため、チームの目標へのメンバーのコミットメントやチームの目標へのコミットメントを減らすか、チームの目標に対するメンバーのコミットメントを減らすことができるため、チームはメンバーの不満に遭遇する可能性があります。
最終的に、これらの課題は、チーム全体のパフォーマンスの低下につながる可能性があります。
私の博士号
論文の目的は、チームの満足度、エンゲージメント、パフォーマンスを向上させるAI-Augmentedチームの最適化フレームワークと実用的なシステムを開発することを目的としています。
まず、マルチアームのバンディットアルゴリズムを活用して、ユーザーの好みに基づいてチームの構成を繰り返し洗練し、個々のニーズと集団チームの目標を確保してチームの満足度を高めることを保証するチームフォーメーションフレームワークを提案します。
第二に、大規模な言語モデル(LLM)を利用してチームと個々のメンバーの両方に即時のパーソナライズされたフィードバックを提供し、結束とエンゲージメントを強化するAI駆動型システムであるTAIFA(チームAIフィードバックアシスタント)を紹介します。
最後に、マルチエージェントチームをシミュレートするLLMベースのシミュレーションフレームワークであるPupereteerllmを、現実的な環境内で複雑なチームダイナミクスをモデル化し、タスク駆動型のコラボレーションと長期的な調整を組み込んでいます。

要約(オリジナル)

Effective teamwork is essential across diverse domains. During the team formation stage, a key challenge is forming teams that effectively balance user preferences with task objectives to enhance overall team satisfaction. In the team performing stage, maintaining cohesion and engagement is critical for sustaining high team performance. However, existing computational tools and algorithms for team optimization often rely on static data inputs, narrow algorithmic objectives, or solutions tailored for specific contexts, failing to account for the dynamic interplay of team members personalities, evolving goals, and changing individual preferences. Therefore, teams may encounter member dissatisfaction, as purely algorithmic assignments can reduce members commitment to team goals or experience suboptimal engagement due to the absence of timely, personalized guidance to help members adjust their behaviors and interactions as team dynamics evolve. Ultimately, these challenges can lead to reduced overall team performance. My Ph.D. dissertation aims to develop AI-augmented team optimization frameworks and practical systems that enhance team satisfaction, engagement, and performance. First, I propose a team formation framework that leverages a multi-armed bandit algorithm to iteratively refine team composition based on user preferences, ensuring alignment between individual needs and collective team goals to enhance team satisfaction. Second, I introduce tAIfa (Team AI Feedback Assistant), an AI-powered system that utilizes large language models (LLMs) to deliver immediate, personalized feedback to both teams and individual members, enhancing cohesion and engagement. Finally, I present PuppeteerLLM, an LLM-based simulation framework that simulates multi-agent teams to model complex team dynamics within realistic environments, incorporating task-driven collaboration and long-term coordination.

arxiv情報

著者 Mohammed Almutairi
発行日 2025-06-06 16:58:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MA | Teaming in the AI Era: AI-Augmented Frameworks for Forming, Simulating, and Optimizing Human Teams はコメントを受け付けていません

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

要約

テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペースのダイバードレプリカを生成するためのパイプラインを提示します。
これを実現するために、最初にメッシュ表現から家具をセグメント化して削除し、平面を拡張し、穴を埋めて、簡略化された脱肉のメッシュ(SDM)を取得します。
このSDMは、シーンの根底にある構造の「X線」として機能し、解体プロセスを導きます。
深さからキャニーエッジを抽出し、SDMからレンダリングされた通常の画像を抽出します。
次に、これらをガイドとして使用して、ControlNet Inpaintingを介してパノラマ画像から家具を削除します。
この制御信号は、削除される家具によって特定のパノラマビューから隠されている可能性のあるグローバルな幾何学的情報の可用性を保証します。
塗装されたパノラマは、メッシュをテクスチャにするために使用されます。
私たちのアプローチは、ぼやけた低解像度の画像、または幻覚の影響を非常に受けやすいRGB-Dの入力を生成する傾向がある神経放射界に依存する方法よりも高品質の資産を生成することを示しています。

要約(オリジナル)

We present a pipeline for generating defurnished replicas of indoor spaces represented as textured meshes and corresponding multi-view panoramic images. To achieve this, we first segment and remove furniture from the mesh representation, extend planes, and fill holes, obtaining a simplified defurnished mesh (SDM). This SDM acts as an “X-ray” of the scene’s underlying structure, guiding the defurnishing process. We extract Canny edges from depth and normal images rendered from the SDM. We then use these as a guide to remove the furniture from panorama images via ControlNet inpainting. This control signal ensures the availability of global geometric information that may be hidden from a particular panoramic view by the furniture being removed. The inpainted panoramas are used to texture the mesh. We show that our approach produces higher quality assets than methods that rely on neural radiance fields, which tend to produce blurry low-resolution images, or RGB-D inpainting, which is highly susceptible to hallucinations.

arxiv情報

著者 Alan Dolhasz,Chen Ma,Dave Gausebeck,Kevin Chen,Gregor Miller,Lucas Hayne,Gunnar Hovden,Azwad Sabik,Olaf Brandt,Mira Slavcheva
発行日 2025-06-06 17:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh はコメントを受け付けていません

Does It Make Sense to Speak of Introspection in Large Language Models?

要約

大規模な言語モデル(LLM)は、魅力的な言語行動を示し、時には自己報告を提供します。
人間では、そのような報告はしばしば内省の学部に起因し、通常意識に関連しています。
これは、LLMSによって生成された自己報告をどのように解釈するかという問題を提起します。
内省の概念をどの程度(もしあれば)LLMに有意義に適用できますか?
ここでは、LLMSからの見かけの内省的自己報告の2つの例を提示し、批評します。
最初の例では、LLMは独自の「創造的な」執筆の背後にあるプロセスを説明しようとします。これは内省の有効な例ではないと主張します。
2番目の例では、LLMは独自の温度パラメーターの値を正しく推進します。これは、(おそらく)意識的な経験を伴わない(おそらく)内省の最小限の例と見なすことができると主張します。

要約(オリジナル)

Large language models (LLMs) exhibit compelling linguistic behaviour, and sometimes offer self-reports, that is to say statements about their own nature, inner workings, or behaviour. In humans, such reports are often attributed to a faculty of introspection and are typically linked to consciousness. This raises the question of how to interpret self-reports produced by LLMs, given their increasing linguistic fluency and cognitive capabilities. To what extent (if any) can the concept of introspection be meaningfully applied to LLMs? Here, we present and critique two examples of apparent introspective self-report from LLMs. In the first example, an LLM attempts to describe the process behind its own ‘creative’ writing, and we argue this is not a valid example of introspection. In the second example, an LLM correctly infers the value of its own temperature parameter, and we argue that this can be legitimately considered a minimal example of introspection, albeit one that is (presumably) not accompanied by conscious experience.

arxiv情報

著者 Iulia M. Comsa,Murray Shanahan
発行日 2025-06-06 11:26:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Does It Make Sense to Speak of Introspection in Large Language Models? はコメントを受け付けていません

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

要約

NERFやGaussian Splatting(GS)を含むニューラルレンダリング技術は、測光の一貫性に依存して高品質の再構築を生成します。
ただし、実際のシナリオでは、獲得した画像の完全な測光の一貫性を保証することは困難です。
この問題に対処するために外観コードは広く使用されていますが、単一のコードが画像全体に適用されるため、モデリング機能は限られています。
最近、両側グリッドがピクセルごとの色マッピングを実行するために導入されましたが、効果的に最適化して制約することは困難です。
この論文では、外観コードと両側グリッドを統一する新しいマルチスケールの両側グリッドを提案します。
このアプローチは、動的で分離された自律運転シーンの再構築における幾何学的精度を大幅に改善し、外観コードと両側グリッドの両方を上回ることを実証します。
これは、障害物の回避と制御に正確なジオメトリが重要である自律運転にとって重要です。
私たちの方法は、Waymo、Nuscenes、Argoverse、およびPandasetの4つのデータセットで強力な結果を示しています。
さらに、ジオメトリの改善は、測光の矛盾によって引き起こされるフローターを効果的に削減するマルチスケールの両側グリッドによって駆動されることを実証します。

要約(オリジナル)

Neural rendering techniques, including NeRF and Gaussian Splatting (GS), rely on photometric consistency to produce high-quality reconstructions. However, in real-world scenarios, it is challenging to guarantee perfect photometric consistency in acquired images. Appearance codes have been widely used to address this issue, but their modeling capability is limited, as a single code is applied to the entire image. Recently, the bilateral grid was introduced to perform pixel-wise color mapping, but it is difficult to optimize and constrain effectively. In this paper, we propose a novel multi-scale bilateral grid that unifies appearance codes and bilateral grids. We demonstrate that this approach significantly improves geometric accuracy in dynamic, decoupled autonomous driving scene reconstruction, outperforming both appearance codes and bilateral grids. This is crucial for autonomous driving, where accurate geometry is important for obstacle avoidance and control. Our method shows strong results across four datasets: Waymo, NuScenes, Argoverse, and PandaSet. We further demonstrate that the improvement in geometry is driven by the multi-scale bilateral grid, which effectively reduces floaters caused by photometric inconsistency.

arxiv情報

著者 Nan Wang,Yuantao Chen,Lixing Xiao,Weiqing Xiao,Bohan Li,Zhaoxi Chen,Chongjie Ye,Shaocong Xu,Saining Zhang,Ziyang Yan,Pierre Merriaux,Lei Lei,Tianfan Xue,Hao Zhao
発行日 2025-06-06 09:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting はコメントを受け付けていません

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

要約

このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り組んでいます。
最近の作品には、標準空間で3Dガウスプリミティブを定義し、変形場を使用して標準的なプリミティブを観察スペースにマッピングし、リアルタイムの動的ビュー合成を達成します。
ただし、これらの方法は、変形場を最適化するのが難しいため、複雑な動きでシーンを処理するのに苦労しています。
この問題を克服するために、Gaussian Primitivesが任意の時間と場所に現れることを可能にする新しい4D表現であるFreetimegsを提案します。
標準的なガウスプリミティブとは対照的に、私たちの表現は強力な柔軟性を備えているため、動的な3Dシーンをモデル化する能力が向上します。
さらに、各ガウス原始を運動関数に導き、時間の経過とともに隣接する領域に移動できるようにし、時間的冗長性が低下します。
実験の結果、いくつかのデータセットでの結果は、私たちの方法のレンダリング品質が最近の方法を大きなマージンで上回ることを示しています。
プロジェクトページ:https://zju3dv.github.io/freetimegs/。

要約(オリジナル)

This paper addresses the challenge of reconstructing dynamic 3D scenes with complex motions. Some recent works define 3D Gaussian primitives in the canonical space and use deformation fields to map canonical primitives to observation spaces, achieving real-time dynamic view synthesis. However, these methods often struggle to handle scenes with complex motions due to the difficulty of optimizing deformation fields. To overcome this problem, we propose FreeTimeGS, a novel 4D representation that allows Gaussian primitives to appear at arbitrary time and locations. In contrast to canonical Gaussian primitives, our representation possesses the strong flexibility, thus improving the ability to model dynamic 3D scenes. In addition, we endow each Gaussian primitive with an motion function, allowing it to move to neighboring regions over time, which reduces the temporal redundancy. Experiments results on several datasets show that the rendering quality of our method outperforms recent methods by a large margin. Project page: https://zju3dv.github.io/freetimegs/ .

arxiv情報

著者 Yifan Wang,Peishan Yang,Zhen Xu,Jiaming Sun,Zhanhua Zhang,Yong Chen,Hujun Bao,Sida Peng,Xiaowei Zhou
発行日 2025-06-06 08:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction はコメントを受け付けていません