月別アーカイブ: 2025年2月

Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

要約 アクションとビデオのダイナミクスをモデリングするための不均一なマスク自己網 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression はコメントを受け付けていません

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

要約 このペーパーでは、ユーザーが画像間生成のコンテキストで映画のビデオショット … 続きを読む

カテゴリー: cs.CV | MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation はコメントを受け付けていません

SWAG: Long-term Surgical Workflow Prediction with Generative-based Anticipation

要約 既存のアプローチは現在の外科段階を認識することに優れていますが、将来の手続 … 続きを読む

カテゴリー: cs.CV, cs.LG | SWAG: Long-term Surgical Workflow Prediction with Generative-based Anticipation はコメントを受け付けていません

SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning

要約 強化学習(RL)により、ソーシャルロボットは、人間が設計したルールや介入に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning はコメントを受け付けていません

Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction

要約 計算流体ダイナミクス(CFD)は自動車設計に不可欠であり、大きな3Dポイン … 続きを読む

カテゴリー: cs.CV | Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction はコメントを受け付けていません

sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views

要約 まばらな外向きの景色から無制限の屋外シーンを再構築することは、最小限の視野 … 続きを読む

カテゴリー: cs.CV | sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views はコメントを受け付けていません

ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

要約 マルチモーダル拡散トランス(DITS)の豊富な表現は、解釈可能性を高めるユ … 続きを読む

カテゴリー: cs.CV, cs.LG | ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features はコメントを受け付けていません

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

要約 このペーパーでは、視覚、オーディオ、テキスト入力を同時に網羅するマルチモー … 続きを読む

カテゴリー: cs.AI, cs.CV | WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

SMART: Advancing Scalable Map Priors for Driving Topology Reasoning

要約 トポロジーの推論は、車線と交通要素の間の接続性と関係を包括的に理解すること … 続きを読む

カテゴリー: cs.CV, cs.RO | SMART: Advancing Scalable Map Priors for Driving Topology Reasoning はコメントを受け付けていません