-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data
要約 合成データを使用してトレーニングすることで 3D シーンの再構成をスケール … 続きを読む
カテゴリー: cs.CV
MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data はコメントを受け付けていません
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation
要約 生成拡散モデルの最近の進歩により、テキストからビデオへの生成が大幅に進歩し … 続きを読む
FashionComposer: Compositional Fashion Image Generation
要約 構成的なファッション画像を生成するための FashionComposer … 続きを読む
カテゴリー: cs.CV
FashionComposer: Compositional Fashion Image Generation はコメントを受け付けていません
E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling
要約 画像生成用の連続トークンを使用した自己回帰 (AR) モデルの最近の進歩に … 続きを読む
Autoregressive Video Generation without Vector Quantization
要約 この論文では、高効率の自己回帰ビデオ生成を可能にする新しいアプローチを紹介 … 続きを読む
カテゴリー: cs.CV
Autoregressive Video Generation without Vector Quantization はコメントを受け付けていません
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
要約 人間は、連続した視覚観察から空間を記憶する視覚空間知能を持っています。 し … 続きを読む
カテゴリー: cs.CV
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces はコメントを受け付けていません
Learning from Massive Human Videos for Universal Humanoid Pose Control
要約 ヒューマノイド ロボットのスケーラブルな学習は、現実世界のアプリケーション … 続きを読む
AniDoc: Animation Creation Made Easier
要約 2D アニメーションの制作は業界標準のワークフローに従い、キャラクター デ … 続きを読む
カテゴリー: cs.CV
AniDoc: Animation Creation Made Easier はコメントを受け付けていません
HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction
要約 自然言語の形式で高レベルの口語的なタスク仕様が与えられたシーンで、人間の手 … 続きを読む
Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild
要約 実際の動的表情認識 (DFER) は、感情に関連した表情を認識する際に大き … 続きを読む