cs.CV」カテゴリーアーカイブ

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

要約 合成データを使用してトレーニングすることで 3D シーンの再構成をスケール … 続きを読む

カテゴリー: cs.CV | MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data はコメントを受け付けていません

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation

要約 生成拡散モデルの最近の進歩により、テキストからビデオへの生成が大幅に進歩し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | VideoDPO: Omni-Preference Alignment for Video Diffusion Generation はコメントを受け付けていません

FashionComposer: Compositional Fashion Image Generation

要約 構成的なファッション画像を生成するための FashionComposer … 続きを読む

カテゴリー: cs.CV | FashionComposer: Compositional Fashion Image Generation はコメントを受け付けていません

E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling

要約 画像生成用の連続トークンを使用した自己回帰 (AR) モデルの最近の進歩に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling はコメントを受け付けていません

Autoregressive Video Generation without Vector Quantization

要約 この論文では、高効率の自己回帰ビデオ生成を可能にする新しいアプローチを紹介 … 続きを読む

カテゴリー: cs.CV | Autoregressive Video Generation without Vector Quantization はコメントを受け付けていません

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

要約 人間は、連続した視覚観察から空間を記憶する視覚空間知能を持っています。 し … 続きを読む

カテゴリー: cs.CV | Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces はコメントを受け付けていません

Learning from Massive Human Videos for Universal Humanoid Pose Control

要約 ヒューマノイド ロボットのスケーラブルな学習は、現実世界のアプリケーション … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Learning from Massive Human Videos for Universal Humanoid Pose Control はコメントを受け付けていません

AniDoc: Animation Creation Made Easier

要約 2D アニメーションの制作は業界標準のワークフローに従い、キャラクター デ … 続きを読む

カテゴリー: cs.CV | AniDoc: Animation Creation Made Easier はコメントを受け付けていません

HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction

要約 自然言語の形式で高レベルの口語的なタスク仕様が与えられたシーンで、人間の手 … 続きを読む

カテゴリー: cs.CV, cs.LG | HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction はコメントを受け付けていません

Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild

要約 実際の動的表情認識 (DFER) は、感情に関連した表情を認識する際に大き … 続きを読む

カテゴリー: cs.AI, cs.CV | Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild はコメントを受け付けていません