-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
要約 生成モデルはランダムなノイズを画像に変換します。 その反転は、回復と編集の … 続きを読む
MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling
要約 マルチモーダル大規模言語モデルの最近の進歩により、画像の理解と生成の両方が … 続きを読む
カテゴリー: cs.CV
MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling はコメントを受け付けていません
Towards Foundation Models for 3D Vision: How Close Are We?
要約 3D ビジョンの基礎モデルの構築は、未解決のままの複雑な課題です。 その目 … 続きを読む
カテゴリー: cs.CV
Towards Foundation Models for 3D Vision: How Close Are We? はコメントを受け付けていません
Boosting Camera Motion Control for Video Diffusion Transformers
要約 拡散モデルの最近の進歩により、ビデオ生成の品質が大幅に向上しました。 ただ … 続きを読む
Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies
要約 多様な環境で自律的に動作できる人型ロボットは、ロボット工学者にとって長年の … 続きを読む
TrajDiffuse: A Conditional Diffusion Model for Environment-Aware Trajectory Prediction
要約 人間や車両の軌道を確率的性質を捉えた多様性に富んだ形で正確に予測することは … 続きを読む
Deep Linear Probe Generators for Weight Space Learning
要約 重み空間学習は、トレーニング データセットや汎化誤差など、ニューラル ネッ … 続きを読む
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
要約 画像生成品質において拡散モデルに匹敵する、1024×1024 画 … 続きを読む
Depth Any Video with Scalable Synthetic Data
要約 ビデオ深度の推定は、一貫性とスケーラブルなグラウンド トゥルース データの … 続きを読む
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
要約 ビデオ生成モデルの有効性は、トレーニング データセットの品質に大きく依存し … 続きを読む