-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
要約 この論文は、車両センサー データからのフォトリアリスティックなビュー合成の … 続きを読む
カテゴリー: cs.CV
StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models はコメントを受け付けていません
InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds
要約 ニューラル 3D 再構成は大幅に進歩していますが、通常、慎重に初期化された … 続きを読む
カテゴリー: cs.CV
InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds はコメントを受け付けていません
MotionBridge: Dynamic Video Inbetweening with Flexible Controls
要約 2 つの画像フレーム間で妥当かつスムーズなトランジションを生成することによ … 続きを読む
カテゴリー: cs.CV
MotionBridge: Dynamic Video Inbetweening with Flexible Controls はコメントを受け付けていません
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
要約 3D セマンティック占有予測は、周囲環境の包括的なセマンティック認識を提供 … 続きを読む
カテゴリー: cs.CV
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding はコメントを受け付けていません
CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models
要約 テキストから画像への拡散モデルは、フォトリアリスティックな画像の生成には優 … 続きを読む
カテゴリー: cs.CV
CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models はコメントを受け付けていません
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents
要約 デジタル世界におけるインターネット閲覧エージェントや、物理世界における家庭 … 続きを読む
Causal Diffusion Transformers for Generative Modeling
要約 拡散モデルの自己回帰 (AR) 対応物として因果拡散を導入します。 これは … 続きを読む
カテゴリー: cs.CV
Causal Diffusion Transformers for Generative Modeling はコメントを受け付けていません
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning
要約 従来の強化学習ベースのロボット制御手法はタスク固有であることが多く、多様な … 続きを読む
From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach
要約 この論文では、2D CAD 図面から 3D パラメトリック モデルを再構成 … 続きを読む
カテゴリー: cs.CV
From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach はコメントを受け付けていません
3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning
要約 コンパクトで有益な 3D シーン表現を構築することは、特に長期間にわたる複 … 続きを読む