「cs.CV」カテゴリーアーカイブ

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

投稿日: 2024年12月19日作成者: jarxiv

要約合成データを使用してトレーニングすることで 3D シーンの再構成をスケール … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation

投稿日: 2024年12月19日作成者: jarxiv

要約生成拡散モデルの最近の進歩により、テキストからビデオへの生成が大幅に進歩し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

FashionComposer: Compositional Fashion Image Generation

投稿日: 2024年12月19日作成者: jarxiv

要約構成的なファッション画像を生成するための FashionComposer … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling

投稿日: 2024年12月19日作成者: jarxiv

要約画像生成用の連続トークンを使用した自己回帰 (AR) モデルの最近の進歩に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Autoregressive Video Generation without Vector Quantization

投稿日: 2024年12月19日作成者: jarxiv

要約この論文では、高効率の自己回帰ビデオ生成を可能にする新しいアプローチを紹介 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

投稿日: 2024年12月19日作成者: jarxiv

要約人間は、連続した視覚観察から空間を記憶する視覚空間知能を持っています。し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning from Massive Human Videos for Universal Humanoid Pose Control

投稿日: 2024年12月19日作成者: jarxiv

要約ヒューマノイドロボットのスケーラブルな学習は、現実世界のアプリケーション … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | コメントを受け付けていません

AniDoc: Animation Creation Made Easier

投稿日: 2024年12月19日作成者: jarxiv

要約 2D アニメーションの制作は業界標準のワークフローに従い、キャラクターデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction

投稿日: 2024年12月19日作成者: jarxiv

要約自然言語の形式で高レベルの口語的なタスク仕様が与えられたシーンで、人間の手 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild

投稿日: 2024年12月19日作成者: jarxiv

要約実際の動的表情認識 (DFER) は、感情に関連した表情を認識する際に大き … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation

FashionComposer: Compositional Fashion Image Generation

E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling

Autoregressive Video Generation without Vector Quantization

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Learning from Massive Human Videos for Universal Humanoid Pose Control

AniDoc: Animation Creation Made Easier

HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction

Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild

最近の投稿

最近のコメント

アーカイブ

カテゴリー