月別アーカイブ: 2024年5月

Don’t drop your samples! Coherence-aware training benefits Conditional diffusion

要約 条件付き拡散モデルは、クラス ラベル、セグメンテーション マスク、テキスト … 続きを読む

カテゴリー: cs.CV, cs.LG | Don’t drop your samples! Coherence-aware training benefits Conditional diffusion はコメントを受け付けていません

MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion

要約 ビデオ属性の変更における拡散ベースのビデオ編集モデルの目覚ましい進歩にもか … 続きを読む

カテゴリー: 68T10, 68T45, cs.CV | MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion はコメントを受け付けていません

GECO: Generative Image-to-3D within a SECOnd

要約 近年、3D世代の進歩は目覚ましいものがあります。 スコア蒸留法などの既存の … 続きを読む

カテゴリー: cs.CV | GECO: Generative Image-to-3D within a SECOnd はコメントを受け付けていません

4DHands: Reconstructing Interactive Hands in 4D with Transformers

要約 この論文では、インタラクティブなハンド メッシュとその相対的な動きを単眼入 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | 4DHands: Reconstructing Interactive Hands in 4D with Transformers はコメントを受け付けていません

SurgiTrack: Fine-Grained Multi-Class Multi-Tool Tracking in Surgical Videos

要約 コンピュータ支援介入を成功させるには、ツールの正確な追跡が不可欠です。 こ … 続きを読む

カテゴリー: cs.CV | SurgiTrack: Fine-Grained Multi-Class Multi-Tool Tracking in Surgical Videos はコメントを受け付けていません

VividDream: Generating 3D Scene with Ambient Dynamics

要約 単一の入力画像またはテキスト プロンプトからアンビエント ダイナミクスを備 … 続きを読む

カテゴリー: cs.CV, cs.GR | VividDream: Generating 3D Scene with Ambient Dynamics はコメントを受け付けていません

RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text

要約 この作品では、テキストの歌詞入力から直接 3D の全体的な体の動きを生成し … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text はコメントを受け付けていません

OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

要約 効果的な自動運転には、3D シーンの進化を理解することが重要です。 従来の … 続きを読む

カテゴリー: cs.AI, cs.CV | OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving はコメントを受け付けていません

Visual Perception by Large Language Model’s Weights

要約 既存のマルチモーダル大規模言語モデル (MLLM) は、視覚特徴を大規模言 … 続きを読む

カテゴリー: cs.CV | Visual Perception by Large Language Model’s Weights はコメントを受け付けていません

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

要約 この研究では、大規模言語モデル (LLM) の強力な機能を活用して、マルチ … 続きを読む

カテゴリー: cs.CV | MotionLLM: Understanding Human Behaviors from Human Motions and Videos はコメントを受け付けていません