FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning

要約

顔の感情分析(FEA)は、顔のデータに基づいて人の感情状態を推測することを目指して、視覚的な感情コンピューティングにおいて重要な役割を果たします。
科学的には、表情(FES)は、顔の筋肉の協調的な動きに起因し、詳細な感情的洞察を提供する特定のアクションユニット(AUS)に分解できます。
しかし、従来の方法は、限られた解釈可能性、制約された一般化、推論能力に苦労することがよくあります。
最近、マルチモーダル大手言語モデル(MLLM)は、さまざまな視覚タスクで並外れたパフォーマンスを示していますが、FEAの重要な課題には、特殊なデータセットがないため、FESとAUSの複雑な関係を把握できないためです。
これらの問題に対処するために、正確で整列したFEおよびAUの説明を提供し、それらの間の因果的推論関係を確立する新しいFEA命令データセットを導入し、新しいベンチマークFeabenchを構築します。
さらに、より詳細な顔の情報をキャプチャするように設計された新しいMLLMアーキテクチャであるFeallmを提案し、FEAタスクでの能力を高めます。
私たちのモデルは、FEAタスクにおける堅牢性と有効性を紹介する、RAF-DB、EbhentNet、BP4D、DISFAなど、さまざまなデータセットでゼロショット評価を通じて、Feabenchの強力なパフォーマンスと印象的な一般化能力を示しています。
データセットとコードはhttps://github.com/953206211/feallmで入手できます。

要約(オリジナル)

Facial Emotion Analysis (FEA) plays a crucial role in visual affective computing, aiming to infer a person’s emotional state based on facial data. Scientifically, facial expressions (FEs) result from the coordinated movement of facial muscles, which can be decomposed into specific action units (AUs) that provide detailed emotional insights. However, traditional methods often struggle with limited interpretability, constrained generalization and reasoning abilities. Recently, Multimodal Large Language Models (MLLMs) have shown exceptional performance in various visual tasks, while they still face significant challenges in FEA due to the lack of specialized datasets and their inability to capture the intricate relationships between FEs and AUs. To address these issues, we introduce a novel FEA Instruction Dataset that provides accurate and aligned FE and AU descriptions and establishes causal reasoning relationships between them, followed by constructing a new benchmark, FEABench. Moreover, we propose FEALLM, a novel MLLM architecture designed to capture more detailed facial information, enhancing its capability in FEA tasks. Our model demonstrates strong performance on FEABench and impressive generalization capability through zero-shot evaluation on various datasets, including RAF-DB, AffectNet, BP4D, and DISFA, showcasing its robustness and effectiveness in FEA tasks. The dataset and code will be available at https://github.com/953206211/FEALLM.

arxiv情報

著者 Zhuozhao Hu,Kaishen Yuan,Xin Liu,Zitong Yu,Yuan Zong,Jingang Shi,Huanjing Yue,Jingyu Yang
発行日 2025-05-19 17:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning はコメントを受け付けていません

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

要約

ビジョン言語モデル(VLM)は、多くの直接的なマルチモーダルタスクで優れていますが、この能力をゲームのようなインタラクティブで視覚的に豊富な環境内で効果的な意思決定に変換するのに苦労しています。
この「知識」ギャップは、自律的なエージェントとしての可能性を大幅に制限します。
これに対処するために、統一されたマルチゲームパラレルトレーニング用に特別に設計された、統一されたインターフェイスと調整可能な組成難易度を備えた多様なビジュアルゲームを備えたキュレーションされた強化学習(RL)環境であるVLM-GYMを紹介します。
VLM-GYMを活用すると、純粋なRL駆動型の自己進化を使用してG0モデルをトレーニングします。これは、緊急の知覚と推論パターンを実証します。
ゲームの多様性から生じる課題をさらに軽減するために、G1モデルを開発します。
G1には、RL微調整の前に、知覚が強化されたコールドスタートが組み込まれています。
結果として得られるG1モデルは、すべてのゲームで教師を一貫して上回り、Claude-3.7-Sonnetを考えているような主要な独自モデルよりも優れています。
体系的な分析により、興味深い発見が明らかになります。RLトレーニングプロセス全体を通して、知覚と推論能力が相互に互いにブートストラップします。
VLM-GYMおよびRLトレーニングを含むソースコードは、https://github.com/chenllliang/g1でリリースされ、VLMを有能なインタラクティブエージェントとして進める将来の研究を促進します。

要約(オリジナル)

Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This “knowing-doing” gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.

arxiv情報

著者 Liang Chen,Hongcheng Gao,Tianyu Liu,Zhiqi Huang,Flood Sung,Xinyu Zhou,Yuxin Wu,Baobao Chang
発行日 2025-05-19 17:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning はコメントを受け付けていません

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

要約

マルチモーダルの大手言語モデル(MLLM)は視覚言語の理解において印象的な進歩を達成していますが、彼らは依然として複雑なマルチステップの推論に苦労しており、しばしば論理的に矛盾するまたは部分的に正しい解決策を生み出しています。
重要な制限は、中間の推論ステップをめぐる細かい監督がないことにあります。
これに対処するために、完全に自動化されたスケーラブルなフレームワーク内で訓練されたプロセス報酬モデルであるMM-PRMを提案します。
最初に、多様な数学的推論データで訓練された強力なマルチモーダルモデルであるMM-Policyを構築します。
次に、シードデータとして機能する検証可能な回答を使用して、10,000のマルチモーダル数学問題のキュレーションデータセットであるMM-K12を構築します。
モンテカルロツリー検索(MCTS)ベースのパイプラインを活用すると、人間の標識なしで700Kを超えるステップレベルの注釈が生成されます。
結果のPRMは、ベストアントNの推論セットアップで候補の推論パスを獲得するために使用され、ドメイン内(MM-K12テストセット)とドメイン外(Olympiadbench、Mathvistaなど)の両方で大幅な改善を達成します。
さらなる分析により、ソフトラベルの有効性、学習率が小さく、PRMパフォーマンスの最適化におけるパスの多様性が確認されます。
MM-PRMは、プロセス監督がマルチモーダル推論システムの論理的堅牢性を高めるための強力なツールであることを示しています。
https://github.com/modalminds/mm-prmですべてのコードとデータをリリースします。

要約(オリジナル)

While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.

arxiv情報

著者 Lingxiao Du,Fanqing Meng,Zongkai Liu,Zhixiang Zhou,Ping Luo,Qiaosheng Zhang,Wenqi Shao
発行日 2025-05-19 17:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision はコメントを受け付けていません

Understanding Complexity in VideoQA via Visual Program Generation

要約

ビデオ質問(VideoQA)のクエリの複雑さを分析するためのデータ駆動型のアプローチを提案します。
ベンチマーク設計の以前の取り組みは、挑戦的な質問を設計するために人間の専門知識に依存してきましたが、実験的には、人間が機械学習モデルにとってどの質問が困難であるかを予測するのに苦労していることを示しています。
私たちの自動アプローチは、質問の難易度のプロキシとして生成されたコードの複雑さを使用して、視覚的な質問に答えるためのコード生成の最近の進歩を活用しています。
この尺度は、人間の推定値よりもモデルのパフォーマンスと有意に相関することを実証します。
この洞察を操作するために、コードから質問の複雑さを推定するためのアルゴリズムを提案します。
これは、特定のモデルのセットについて最も困難な質問と相関する微細なプリミティブを識別し、将来の新しいアプローチに簡単にスケーリングできるようにします。
最後に、私たちの方法のユーティリティをさらに説明するために、それを拡張して複雑な質問を自動的に生成し、人気のあるQAの1.9倍難しい新しいベンチマークを構築します。

要約(オリジナル)

We propose a data-driven approach to analyzing query complexity in Video Question Answering (VideoQA). Previous efforts in benchmark design have relied on human expertise to design challenging questions, yet we experimentally show that humans struggle to predict which questions are difficult for machine learning models. Our automatic approach leverages recent advances in code generation for visual question answering, using the complexity of generated code as a proxy for question difficulty. We demonstrate that this measure correlates significantly better with model performance than human estimates. To operationalize this insight, we propose an algorithm for estimating question complexity from code. It identifies fine-grained primitives that correlate with the hardest questions for any given set of models, making it easy to scale to new approaches in the future. Finally, to further illustrate the utility of our method, we extend it to automatically generate complex questions, constructing a new benchmark that is 1.9 times harder than the popular NExT-QA.

arxiv情報

著者 Cristobal Eyzaguirre,Igor Vasiljevic,Achal Dave,Jiajun Wu,Rares Andrei Ambrus,Thomas Kollar,Juan Carlos Niebles,Pavel Tokmakov
発行日 2025-05-19 17:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Complexity in VideoQA via Visual Program Generation はコメントを受け付けていません

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

要約

大規模な言語モデルのサイズが指数関数的に成長するにつれて、GPUメモリは、これらのモデルをダウンストリームタスクに適応させるためのボトルネックになりました。
この論文では、統一されたフレームワーク内でモデルの重み、勾配、およびオプティマイザー状態に関するメモリ使用量を最小限に抑えることにより、メモリ効率の高いトレーニングの限界を推進することを目指しています。
私たちのアイデアは、Zeroth-Orderの最適化を使用して勾配とオプティマイザーの両方の状態を排除することです。これは、前方パス中に摂動することで勾配に近いため、勾配方向を特定します。
重量のメモリ使用量を最小限に抑えるために、モデルの量子化、たとえばBFLOAT16からINT4への変換を採用しています。
ただし、ゼロオーダーの最適化を量子化された重みに直接適用することは、離散重みと連続勾配の間の精度のギャップのために実行不可能であり、それ以外の場合は定量化と再定量化が必要です。
この課題を克服するために、量子化されたZeroth-Order Optimization(QZO)を提案します。これは、勾配推定のための連続量子化スケールを妨害し、方向性微分クリッピング方法を使用してトレーニングを安定させる新しいアプローチを提案します。
QZOは、スカラーベースとコードブックベースのトレーニング後の量子化方法の両方に直交しています。
BFLOAT16のフルパラメーターの微調整と比較して、QZOは4ビットLLMSで総メモリコストを18ドル以上削減でき、1つの24GB GPU内で微調整されたLLAMA-2-13Bと安定した拡散3.5を有効にします。

要約(オリジナル)

As the size of large language models grows exponentially, GPU memory has become a bottleneck for adapting these models to downstream tasks. In this paper, we aim to push the limits of memory-efficient training by minimizing memory usage on model weights, gradients, and optimizer states, within a unified framework. Our idea is to eliminate both gradients and optimizer states using zeroth-order optimization, which approximates gradients by perturbing weights during forward passes to identify gradient directions. To minimize memory usage on weights, we employ model quantization, e.g., converting from bfloat16 to int4. However, directly applying zeroth-order optimization to quantized weights is infeasible due to the precision gap between discrete weights and continuous gradients, which would otherwise require de-quantization and re-quantization. To overcome this challenge, we propose Quantized Zeroth-order Optimization (QZO), a novel approach that perturbs the continuous quantization scale for gradient estimation and uses a directional derivative clipping method to stabilize training. QZO is orthogonal to both scalar-based and codebook-based post-training quantization methods. Compared to full-parameter fine-tuning in bfloat16, QZO can reduce the total memory cost by more than 18$\times$ for 4-bit LLMs, and enables fine-tuning Llama-2-13B and Stable Diffusion 3.5 Large within a single 24GB GPU.

arxiv情報

著者 Sifeng Shang,Jiayi Zhou,Chenyu Lin,Minxian Li,Kaiyang Zhou
発行日 2025-05-19 17:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Fine-tuning Quantized Neural Networks with Zeroth-order Optimization はコメントを受け付けていません

KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture

要約

高品質の運動分析へのより広範なアクセスは、運動障害のより詳細な特性評価と介入に対する応答のより詳細な特性評価、さらには新しい神経条件の早期検出や転倒リスクを可能にするなど、運動科学とリハビリテーションに大きな利益をもたらす可能性があります。
新興技術は、生体力学的モデルで運動学を捕らえることを容易にしている一方で、または関節の角度が時間の経過とともに変化する方法を推測し、地上反力、関節のトルク、さらには筋肉の活性化を含むこれらの動きを引き起こす根本的な物理学を推測しています。
ここでは、健常者や障害のある個人からの動きの大規模なデータセットから生体力学モデルに適用された模倣学習が、これらの逆ダイナミクスを計算することを学ぶことができるかどうかを調査します。
人間のポーズ推定における模倣学習は近年大きな関心を持っていますが、いくつかの方法での仕事の違いがあります。コンピュータービジョンに採用されたモデルではなく、正確な生体力学的モデルを使用することに焦点を当て、障害のある動きのある参加者を含むデータセットでテストしました。
神経筋骨格モデル。
私たちの模倣学習ポリシーであるKintwinは、補助装置やセラピストの支援を含む幅広い動きの運動学を正確に複製できること、および関節のトルクと筋肉の活性化における臨床的に意味のある違いを推測できることを示しています。
私たちの研究は、臨床診療で高品質の動き分析を可能にするために模倣学習を使用する可能性を示しています。

要約(オリジナル)

Broader access to high-quality movement analysis could greatly benefit movement science and rehabilitation, such as allowing more detailed characterization of movement impairments and responses to interventions, or even enabling early detection of new neurological conditions or fall risk. While emerging technologies are making it easier to capture kinematics with biomechanical models, or how joint angles change over time, inferring the underlying physics that give rise to these movements, including ground reaction forces, joint torques, or even muscle activations, is still challenging. Here we explore whether imitation learning applied to a biomechanical model from a large dataset of movements from able-bodied and impaired individuals can learn to compute these inverse dynamics. Although imitation learning in human pose estimation has seen great interest in recent years, our work differences in several ways: we focus on using an accurate biomechanical model instead of models adopted for computer vision, we test it on a dataset that contains participants with impaired movements, we reported detailed tracking metrics relevant for the clinical measurement of movement including joint angles and ground contact events, and finally we apply imitation learning to a muscle-driven neuromusculoskeletal model. We show that our imitation learning policy, KinTwin, can accurately replicate the kinematics of a wide range of movements, including those with assistive devices or therapist assistance, and that it can infer clinically meaningful differences in joint torques and muscle activations. Our work demonstrates the potential for using imitation learning to enable high-quality movement analysis in clinical practice.

arxiv情報

著者 R. James Cotton
発行日 2025-05-19 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture はコメントを受け付けていません

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

要約

ビデオ生成の大幅な進歩にもかかわらず、特に細粒のセマンティクスと複雑な時間的ダイナミクスのモデリングにおいて、身体的にもっともらしい人間の行動を合成することは、持続的な課題のままです。
たとえば、「0.5ターンでのスイッチリープ」などの体操ルーチンを生成すると、現在の方法が大幅に困難になり、多くの場合、不十分な結果が得られます。
このギャップを埋めるために、私たちは、効果的な骨格ガイダンスを取得するために物理学を組み込んだ細かい人間の行動生成フレームワークであるFinephysを提案します。
具体的には、FinePhysは最初に2Dポーズをオンラインで推定し、次にコンテキスト内学習を介して2D対3Dディメンションリフティングを実行します。
純粋にデータ駆動型の3Dポーズの不安定性と制限された解釈可能性を軽減するために、Euler-Lagrange方程式によって支配された物理ベースの動きの再推定モジュールをさらに導入し、双方向の時間的更新を介して共同加速を計算します。
その後、物理的に予測される3Dポーズは、データ駆動型のポーズと融合され、拡散プロセスのためのマルチスケールの2Dヒートマップガイダンスを提供します。
FineGym(FX-Jump、FX-Turn、およびFX-Salto)の3つの細粒アクションサブセットで評価されているため、FinePhysは競合ベースラインを大幅に上回ります。
包括的な定性的な結果は、さらに自然でもっともらしい細かい人間の行動を生み出すFinephysの能力をさらに示しています。

要約(オリジナル)

Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as ‘switch leap with 0.5 turn’ poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys’s ability to generate more natural and plausible fine-grained human actions.

arxiv情報

著者 Dian Shao,Mingfei Shi,Shengda Xu,Haodong Chen,Yongle Huang,Binglu Wang
発行日 2025-05-19 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance はコメントを受け付けていません

VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation

要約

自己回帰(AR)モデルは最近、画像生成で強力なパフォーマンスを示しています。ここで、重要なコンポーネントは、連続したピクセル入力を離散トークンシーケンスにマップする視覚トークン剤(VT)です。
VTの品質は、ARモデルのパフォーマンスの上限をほぼ定義しています。
ただし、現在の離散VTSは、連続変動自動エンコーダー(VAE)に大きく該当し、画像の再構成が低下し、詳細とテキストの保存が不十分になります。
既存のベンチマークは、VTパフォーマンスを分離することなく、エンドツーエンドの生成品質に焦点を当てています。
このギャップに対処するために、VTBenchを導入します。これは、画像再構成、詳細保存、テキスト保存の3つのコアタスクにわたってVTを体系的に評価し、多様な評価シナリオをカバーする包括的なベンチマークです。
一連のメトリックを使用して、最先端のVTSを体系的に評価して、再構築された画像の品質を評価します。
私たちの調査結果は、特に空間構造とセマンティックの詳細を維持する際に、個別のVTSと比較して、連続的なVAEが優れた視覚表現を生成することを明らかにしています。
対照的に、離散VTによって生成される劣化した表現は、しばしば歪んだ再構成、微調整されたテクスチャの喪失、およびテキストとオブジェクトの完全性を維持する障害につながります。
さらに、GPT-4O画像生成に関する実験を実施し、その潜在的なARの性質について議論し、視覚トークン化の役割に関する新しい洞察を提供します。
ベンチマークとコードベースを公開して、さらなる研究をサポートし、コミュニティに強力で汎用のオープンソースVTを開発するよう呼びかけます。

要約(オリジナル)

Autoregressive (AR) models have recently shown strong performance in image generation, where a critical component is the visual tokenizer (VT) that maps continuous pixel inputs to discrete token sequences. The quality of the VT largely defines the upper bound of AR model performance. However, current discrete VTs fall significantly behind continuous variational autoencoders (VAEs), leading to degraded image reconstructions and poor preservation of details and text. Existing benchmarks focus on end-to-end generation quality, without isolating VT performance. To address this gap, we introduce VTBench, a comprehensive benchmark that systematically evaluates VTs across three core tasks: Image Reconstruction, Detail Preservation, and Text Preservation, and covers a diverse range of evaluation scenarios. We systematically assess state-of-the-art VTs using a set of metrics to evaluate the quality of reconstructed images. Our findings reveal that continuous VAEs produce superior visual representations compared to discrete VTs, particularly in retaining spatial structure and semantic detail. In contrast, the degraded representations produced by discrete VTs often lead to distorted reconstructions, loss of fine-grained textures, and failures in preserving text and object integrity. Furthermore, we conduct experiments on GPT-4o image generation and discuss its potential AR nature, offering new insights into the role of visual tokenization. We release our benchmark and codebase publicly to support further research and call on the community to develop strong, general-purpose open-source VTs.

arxiv情報

著者 Huawei Lin,Tong Geng,Zhaozhuo Xu,Weijie Zhao
発行日 2025-05-19 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation はコメントを受け付けていません

Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos

要約

現在、ほとんどすべての最先端の新規ビューの統合と再構築モデルは、校正カメラまたはトレーニング用の追加の幾何学的事前に依存しています。
これらの前提条件は、それらの適用性を大規模な非調整データに大幅に制限しています。
この要件を緩和し、大規模なキャリブレーションされていないビデオでの自己監視トレーニングの可能性を解き放つために、カメラパラメーターやその他のプライアーを提供することなく、生のビデオフレームまたはマルチビュー画像のみからビュー合成モデルをトレーニングするための新しい2段階戦略を提案します。
最初の段階では、明示的な3D表現に依存することなく、潜在空間でシーンを暗黙的に再構築することを学びます。
具体的には、フレームごとの潜在的なカメラとシーンコンテキスト機能を予測し、明示的なレンダリングのプロキシとしてビュー合成モデルを採用します。
この事前トレーニング段階は、最適化の複雑さを大幅に削減し、ネットワークが自己教師の方法で基礎となる3D一貫性を学習することを奨励します。
学んだ潜在的なカメラと暗黙のシーンの表現は、実際の3Dの世界と比較して大きなギャップを持っています。
このギャップを減らすために、3Dガウスプリミティブを明示的に予測することにより、第2段階のトレーニングを導入します。
さらに、明示的なガウスのスプラットレンダリング損失と深度投影損失を適用して、学習した潜在表現を物理的に接地した3Dジオメトリに合わせます。
このようにして、ステージ1は強力な初期化を提供し、ステージ2は3Dの一貫性を強制します – 2つのステージは補完的で相互に有益です。
広範な実験は、キャリブレーション、ポーズ、または深さ情報を使用して監督を採用する方法と比較して、高品質の新規ビューの合成と正確なカメラポーズ推定を実現し、アプローチの有効性を実証します。
このコードは、https://github.com/dwawayu/pensieveで入手できます。

要約(オリジナル)

Currently almost all state-of-the-art novel view synthesis and reconstruction models rely on calibrated cameras or additional geometric priors for training. These prerequisites significantly limit their applicability to massive uncalibrated data. To alleviate this requirement and unlock the potential for self-supervised training on large-scale uncalibrated videos, we propose a novel two-stage strategy to train a view synthesis model from only raw video frames or multi-view images, without providing camera parameters or other priors. In the first stage, we learn to reconstruct the scene implicitly in a latent space without relying on any explicit 3D representation. Specifically, we predict per-frame latent camera and scene context features, and employ a view synthesis model as a proxy for explicit rendering. This pretraining stage substantially reduces the optimization complexity and encourages the network to learn the underlying 3D consistency in a self-supervised manner. The learned latent camera and implicit scene representation have a large gap compared with the real 3D world. To reduce this gap, we introduce the second stage training by explicitly predicting 3D Gaussian primitives. We additionally apply explicit Gaussian Splatting rendering loss and depth projection loss to align the learned latent representations with physically grounded 3D geometry. In this way, Stage 1 provides a strong initialization and Stage 2 enforces 3D consistency – the two stages are complementary and mutually beneficial. Extensive experiments demonstrate the effectiveness of our approach, achieving high-quality novel view synthesis and accurate camera pose estimation, compared to methods that employ supervision with calibration, pose, or depth information. The code is available at https://github.com/Dwawayu/Pensieve.

arxiv情報

著者 Ruoyu Wang,Yi Ma,Shenghua Gao
発行日 2025-05-19 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos はコメントを受け付けていません

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

要約

物理的なAIシステムは、物理的な世界で複雑な行動を認識し、理解し、実行する必要があります。
この論文では、物理的な世界を理解し、長い考え方の推論プロセスを通じて自然言語で適切な具体化された決定(次のステップアクション)を生成できるCosmos-Reason1モデルを提示します。
まず、物理的常識と具体化された推論に焦点を当てて、物理的なAI推論の重要な機能を定義することから始めます。
物理的常識を表すために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。
具体化された推論のために、私たちは異なる物理的実施形態にわたって一般化する2次元オントロジーに依存しています。
これらの機能に基づいて、2つのマルチモーダルな大手言語モデル、Cosmos-Reason1-7BとCosmos-Reason1-56bを開発しています。
データをキュレートし、モデルを2つの段階で訓練します:物理AI監視微調整(SFT)と物理AI補強学習(RL)。
モデルを評価するために、物理的常識のための包括的なベンチマークを構築し、オントロジーに従って推論を具体化します。
評価の結果は、物理的なAI SFTとRLが大幅に改善されることを示しています。
物理AIの開発を容易にするために、https://github.com/nvidia-cosmos/cosmos-reason1のNVIDIAオープンモデルライセンスの下でコードと事前訓練を受けたモデルを利用可能にします。

要約(オリジナル)

Physical AI systems need to perceive, understand, and perform complex actions in the physical world. In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e.g., next step action) in natural language through long chain-of-thought reasoning processes. We begin by defining key capabilities for Physical AI reasoning, with a focus on physical common sense and embodied reasoning. To represent physical common sense, we use a hierarchical ontology that captures fundamental knowledge about space, time, and physics. For embodied reasoning, we rely on a two-dimensional ontology that generalizes across different physical embodiments. Building on these capabilities, we develop two multimodal large language models, Cosmos-Reason1-7B and Cosmos-Reason1-56B. We curate data and train our models in two stages: Physical AI supervised fine-tuning (SFT) and Physical AI reinforcement learning (RL). To evaluate our models, we build comprehensive benchmarks for physical common sense and embodied reasoning according to our ontologies. Evaluation results show that Physical AI SFT and RL bring significant improvements. To facilitate the development of Physical AI, we make our code and pre-trained models available under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-reason1.

arxiv情報

著者 NVIDIA,:,Alisson Azzolini,Junjie Bai,Hannah Brandon,Jiaxin Cao,Prithvijit Chattopadhyay,Huayu Chen,Jinju Chu,Yin Cui,Jenna Diamond,Yifan Ding,Liang Feng,Francesco Ferroni,Rama Govindaraju,Jinwei Gu,Siddharth Gururani,Imad El Hanafi,Zekun Hao,Jacob Huffman,Jingyi Jin,Brendan Johnson,Rizwan Khan,George Kurian,Elena Lantz,Nayeon Lee,Zhaoshuo Li,Xuan Li,Maosheng Liao,Tsung-Yi Lin,Yen-Chen Lin,Ming-Yu Liu,Xiangyu Lu,Alice Luo,Andrew Mathau,Yun Ni,Lindsey Pavao,Wei Ping,David W. Romero,Misha Smelyanskiy,Shuran Song,Lyne Tchapmi,Andrew Z. Wang,Boxin Wang,Haoxiang Wang,Fangyin Wei,Jiashu Xu,Yao Xu,Dinghao Yang,Xiaodong Yang,Zhuolin Yang,Jingxu Zhang,Xiaohui Zeng,Zhe Zhang
発行日 2025-05-19 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning はコメントを受け付けていません