月別アーカイブ: 2024年5月

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

要約 ワールドモデルはさまざまなアクションの結果を予測できますが、これは自動運転 … 続きを読む

カテゴリー: cs.AI, cs.CV | Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability はコメントを受け付けていません

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

要約 私たちは、トレーニング不要の拡散モデルのパーソナライゼーションのための新し … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control はコメントを受け付けていません

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

要約 我々は、任意の視点の下で単一の画像から高品質で時空間的に一貫した人間のビデ … 続きを読む

カテゴリー: cs.CV | Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer はコメントを受け付けていません

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

要約 最近、ビデオ生成に関する研究が大幅に進歩し、テキスト プロンプトや画像から … 続きを読む

カテゴリー: cs.CV, cs.GR | Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control はコメントを受け付けていません

A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning

要約 $Q$ 学習アルゴリズムは、データ効率が高いため、現実世界のアプリケーショ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning はコメントを受け付けていません

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

要約 ロボット操作ポリシーは、新しいタスクやオブジェクトのインスタンスに直面した … 続きを読む

カテゴリー: cs.CV | Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation はコメントを受け付けていません

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

要約 自動運転やロボット支援手術などの安全性が重要なアプリケーションに機械学習モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities はコメントを受け付けていません

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

要約 野生で何気なく撮影された単眼ビデオから動的シーンの斬新なビューを再構成およ … 続きを読む

カテゴリー: cs.CV, cs.GR | MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds はコメントを受け付けていません

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

要約 3D 物体検出は、関連する物体の 3D 情報を復元することを目的としており … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection はコメントを受け付けていません

Privacy-Aware Visual Language Models

要約 このホワイト ペーパーは、ビジュアル言語モデル (VLM) がプライバシー … 続きを読む

カテゴリー: cs.CL, cs.CV | Privacy-Aware Visual Language Models はコメントを受け付けていません