「cs.CV」カテゴリーアーカイブ

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

投稿日: 2024年10月15日作成者: jarxiv

要約生成モデルはランダムなノイズを画像に変換します。その反転は、回復と編集の … 続きを読む →

カテゴリー: cs.CV, cs.LG, stat.ML | コメントを受け付けていません

MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling

投稿日: 2024年10月15日作成者: jarxiv

要約マルチモーダル大規模言語モデルの最近の進歩により、画像の理解と生成の両方が … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Foundation Models for 3D Vision: How Close Are We?

投稿日: 2024年10月15日作成者: jarxiv

要約 3D ビジョンの基礎モデルの構築は、未解決のままの複雑な課題です。その目 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Boosting Camera Motion Control for Video Diffusion Transformers

投稿日: 2024年10月15日作成者: jarxiv

要約拡散モデルの最近の進歩により、ビデオ生成の品質が大幅に向上しました。ただ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies

投稿日: 2024年10月15日作成者: jarxiv

要約多様な環境で自律的に動作できる人型ロボットは、ロボット工学者にとって長年の … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

TrajDiffuse: A Conditional Diffusion Model for Environment-Aware Trajectory Prediction

投稿日: 2024年10月15日作成者: jarxiv

要約人間や車両の軌道を確率的性質を捉えた多様性に富んだ形で正確に予測することは … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Deep Linear Probe Generators for Weight Space Learning

投稿日: 2024年10月15日作成者: jarxiv

要約重み空間学習は、トレーニングデータセットや汎化誤差など、ニューラルネッ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

投稿日: 2024年10月15日作成者: jarxiv

要約画像生成品質において拡散モデルに匹敵する、1024×1024 画 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Depth Any Video with Scalable Synthetic Data

投稿日: 2024年10月15日作成者: jarxiv

要約ビデオ深度の推定は、一貫性とスケーラブルなグラウンドトゥルースデータの … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

投稿日: 2024年10月15日作成者: jarxiv

要約ビデオ生成モデルの有効性は、トレーニングデータセットの品質に大きく依存し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling

Towards Foundation Models for 3D Vision: How Close Are We?

Boosting Camera Motion Control for Video Diffusion Transformers

Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies

TrajDiffuse: A Conditional Diffusion Model for Environment-Aware Trajectory Prediction

Deep Linear Probe Generators for Weight Space Learning

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Depth Any Video with Scalable Synthetic Data

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

最近の投稿

最近のコメント

アーカイブ

カテゴリー