cs.CV」カテゴリーアーカイブ

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

要約 生成モデルはランダムなノイズを画像に変換します。 その反転は、回復と編集の … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations はコメントを受け付けていません

MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling

要約 マルチモーダル大規模言語モデルの最近の進歩により、画像の理解と生成の両方が … 続きを読む

カテゴリー: cs.CV | MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling はコメントを受け付けていません

Towards Foundation Models for 3D Vision: How Close Are We?

要約 3D ビジョンの基礎モデルの構築は、未解決のままの複雑な課題です。 その目 … 続きを読む

カテゴリー: cs.CV | Towards Foundation Models for 3D Vision: How Close Are We? はコメントを受け付けていません

Boosting Camera Motion Control for Video Diffusion Transformers

要約 拡散モデルの最近の進歩により、ビデオ生成の品質が大幅に向上しました。 ただ … 続きを読む

カテゴリー: cs.AI, cs.CV | Boosting Camera Motion Control for Video Diffusion Transformers はコメントを受け付けていません

Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies

要約 多様な環境で自律的に動作できる人型ロボットは、ロボット工学者にとって長年の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies はコメントを受け付けていません

TrajDiffuse: A Conditional Diffusion Model for Environment-Aware Trajectory Prediction

要約 人間や車両の軌道を確率的性質を捉えた多様性に富んだ形で正確に予測することは … 続きを読む

カテゴリー: cs.CV, cs.LG | TrajDiffuse: A Conditional Diffusion Model for Environment-Aware Trajectory Prediction はコメントを受け付けていません

Deep Linear Probe Generators for Weight Space Learning

要約 重み空間学習は、トレーニング データセットや汎化誤差など、ニューラル ネッ … 続きを読む

カテゴリー: cs.CV, cs.LG | Deep Linear Probe Generators for Weight Space Learning はコメントを受け付けていません

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

要約 画像生成品質において拡散モデルに匹敵する、1024×1024 画 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | HART: Efficient Visual Generation with Hybrid Autoregressive Transformer はコメントを受け付けていません

Depth Any Video with Scalable Synthetic Data

要約 ビデオ深度の推定は、一貫性とスケーラブルなグラウンド トゥルース データの … 続きを読む

カテゴリー: cs.AI, cs.CV | Depth Any Video with Scalable Synthetic Data はコメントを受け付けていません

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

要約 ビデオ生成モデルの有効性は、トレーニング データセットの品質に大きく依存し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | LVD-2M: A Long-take Video Dataset with Temporally Dense Captions はコメントを受け付けていません