-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
要約 SORAは、シングルシーンビデオ生成において、拡散トランス(DIT)アーキ … 続きを読む
カテゴリー: cs.CV
Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation はコメントを受け付けていません
Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing
要約 把握されたオブジェクトの正確な3Dポーズ推定は、ロボットがアセンブリまたは … 続きを読む
MambaVision: A Hybrid Mamba-Transformer Vision Backbone
要約 視覚アプリケーションに合わせて特別に調整された、新しいハイブリッドマンバト … 続きを読む
カテゴリー: cs.CV
MambaVision: A Hybrid Mamba-Transformer Vision Backbone はコメントを受け付けていません
Scaling Down Text Encoders of Text-to-Image Diffusion Models
要約 拡散モデルのテキストエンコーダーは急速に進化し、クリップからT5-XXLに … 続きを読む
カテゴリー: cs.CV
Scaling Down Text Encoders of Text-to-Image Diffusion Models はコメントを受け付けていません
CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning
要約 大規模なビジョン言語モデル(LVLMS)の急速な進歩により、マルチモーダル … 続きを読む
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
要約 多様で物理的にもっともらしいヒトシーン相互作用(HSI)の合成は、コンピュ … 続きを読む
カテゴリー: cs.CV
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization はコメントを受け付けていません
Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation
要約 ビデオフレーム補間は、観測されたフレーム間で現実的な欠落フレームを回復し、 … 続きを読む
カテゴリー: cs.CV
Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation はコメントを受け付けていません
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models
要約 視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む
カテゴリー: cs.CV
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません
Scaling Vision Pre-Training to 4K Resolution
要約 視覚的詳細の高解像度の認識は、毎日のタスクにとって重要です。 ただし、現在 … 続きを読む
カテゴリー: cs.CV
Scaling Vision Pre-Training to 4K Resolution はコメントを受け付けていません
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
要約 動画予測では、出力が一貫性があり、アーティファクトがないことを確認するため … 続きを読む