「cs.CV」カテゴリーアーカイブ

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

投稿日: 2025年3月26日作成者: jarxiv

要約 SORAは、シングルシーンビデオ生成において、拡散トランス（DIT）アーキ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing

投稿日: 2025年3月26日作成者: jarxiv

要約把握されたオブジェクトの正確な3Dポーズ推定は、ロボットがアセンブリまたは … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

投稿日: 2025年3月26日作成者: jarxiv

要約視覚アプリケーションに合わせて特別に調整された、新しいハイブリッドマンバト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Scaling Down Text Encoders of Text-to-Image Diffusion Models

投稿日: 2025年3月26日作成者: jarxiv

要約拡散モデルのテキストエンコーダーは急速に進化し、クリップからT5-XXLに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning

投稿日: 2025年3月26日作成者: jarxiv

要約大規模なビジョン言語モデル（LVLMS）の急速な進歩により、マルチモーダル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

投稿日: 2025年3月26日作成者: jarxiv

要約多様で物理的にもっともらしいヒトシーン相互作用（HSI）の合成は、コンピュ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

投稿日: 2025年3月26日作成者: jarxiv

要約ビデオフレーム補間は、観測されたフレーム間で現実的な欠落フレームを回復し、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

投稿日: 2025年3月26日作成者: jarxiv

要約視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Scaling Vision Pre-Training to 4K Resolution

投稿日: 2025年3月26日作成者: jarxiv

要約視覚的詳細の高解像度の認識は、毎日のタスクにとって重要です。ただし、現在 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

投稿日: 2025年3月26日作成者: jarxiv

要約動画予測では、出力が一貫性があり、アーティファクトがないことを確認するため … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Scaling Down Text Encoders of Text-to-Image Diffusion Models

CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

Scaling Vision Pre-Training to 4K Resolution

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

最近の投稿

最近のコメント

アーカイブ

カテゴリー