「cs.CV」カテゴリーアーカイブ

Reanimating Images using Neural Representations of Dynamic Stimuli

投稿日: 2025年3月26日作成者: jarxiv

要約コンピュータービジョンモデルは静的な画像認識で信じられないほどの進歩を遂げ … 続きを読む →

カテゴリー: cs.AI, cs.CV, q-bio.NC | コメントを受け付けていません

AvatarArtist: Open-Domain 4D Avatarization

投稿日: 2025年3月26日作成者: jarxiv

要約この作品は、任意のスタイルでポートレートイメージから4Dアバターを作成する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

投稿日: 2025年3月26日作成者: jarxiv

要約現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当て … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

投稿日: 2025年3月26日作成者: jarxiv

要約大規模なビジョン言語モデル（LVLMS）は、ビデオ理解における印象的な能力 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoLLM: A Large Language Model for Composed Image Retrieval

投稿日: 2025年3月26日作成者: jarxiv

要約構成された画像検索（CIR）は、マルチモーダルクエリに基づいて画像を取得す … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

投稿日: 2025年3月26日作成者: jarxiv

要約 LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

投稿日: 2025年3月26日作成者: jarxiv

要約事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

投稿日: 2025年3月26日作成者: jarxiv

要約現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EventFly: Event Camera Perception from Ground to the Sky

投稿日: 2025年3月26日作成者: jarxiv

要約イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ド … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

投稿日: 2025年3月26日作成者: jarxiv

要約現在のビジョン言語モデル（VLM）は、視覚的な質問応答など、さまざまなタス … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Reanimating Images using Neural Representations of Dynamic Stimuli

AvatarArtist: Open-Domain 4D Avatarization

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

CoLLM: A Large Language Model for Composed Image Retrieval

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

EventFly: Event Camera Perception from Ground to the Sky

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー