-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Adaptive Caching for Faster Video Generation with Diffusion Transformers
要約 時間的に一貫性のある忠実度の高い映像を生成することは、特に長い時間スパンで … 続きを読む
カテゴリー: cs.CV
Adaptive Caching for Faster Video Generation with Diffusion Transformers はコメントを受け付けていません
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
要約 人間には相補的な学習システムが備わっており、一般的な世界ダイナミクスのゆっ … 続きを読む
LucidGrasp: Robotic Framework for Autonomous Manipulation of Laboratory Equipment with Different Degrees of Transparency via 6D Pose Estimation
要約 最新のロボットシステムの多くは自律的に動作するが、環境を正確に分析し、変化 … 続きを読む
Elliptical Attention
要約 一対のドット積自己アテンションは、言語と視覚の様々な応用において最先端の性 … 続きを読む
Exploring Behavior-Relevant and Disentangled Neural Dynamics with Generative Diffusion Models
要約 行動の神経基盤を理解することは、神経科学における基本的な目標である。大規模 … 続きを読む
VILA$^2$: VILA Augmented VILA
要約 視覚言語モデルのアーキテクチャや学習インフラが急速に進歩する一方で、データ … 続きを読む
カテゴリー: cs.CV
VILA$^2$: VILA Augmented VILA はコメントを受け付けていません
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
要約 最近の動画生成モデルは、インペインティングやスタイル編集のような特定のタス … 続きを読む
DiffusionPDE: Generative PDE-Solving Under Partial Observation
要約 生成的拡散モデルを用いて偏微分方程式(PDE)を解くための一般的な枠組みを … 続きを読む
LRM-Zero: Training Large Reconstruction Models with Synthesized Data
要約 LRM-ZEROは、合成された3Dデータのみで学習され、高品質なスパースビ … 続きを読む
From Question to Exploration: Test-Time Adaptation in Semantic Segmentation?
要約 テスト時間適応(TTA)は、最初に訓練データで訓練されたモデルを、潜在的な … 続きを読む