cs.CV」カテゴリーアーカイブ

Reanimating Images using Neural Representations of Dynamic Stimuli

要約 コンピュータービジョンモデルは静的な画像認識で信じられないほどの進歩を遂げ … 続きを読む

カテゴリー: cs.AI, cs.CV, q-bio.NC | Reanimating Images using Neural Representations of Dynamic Stimuli はコメントを受け付けていません

AvatarArtist: Open-Domain 4D Avatarization

要約 この作品は、任意のスタイルでポートレートイメージから4Dアバターを作成する … 続きを読む

カテゴリー: cs.CV | AvatarArtist: Open-Domain 4D Avatarization はコメントを受け付けていません

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

要約 現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当て … 続きを読む

カテゴリー: cs.CV | FullDiT: Multi-Task Video Generative Foundation Model with Full Attention はコメントを受け付けていません

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

要約 大規模なビジョン言語モデル(LVLMS)は、ビデオ理解における印象的な能力 … 続きを読む

カテゴリー: cs.CV | From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities はコメントを受け付けていません

CoLLM: A Large Language Model for Composed Image Retrieval

要約 構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得す … 続きを読む

カテゴリー: cs.CV, cs.IR | CoLLM: A Large Language Model for Composed Image Retrieval はコメントを受け付けていません

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

要約 LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining はコメントを受け付けていません

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

要約 事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用する … 続きを読む

カテゴリー: cs.CV | Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models はコメントを受け付けていません

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

要約 現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、 … 続きを読む

カテゴリー: cs.CV | PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model はコメントを受け付けていません

EventFly: Event Camera Perception from Ground to the Sky

要約 イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ド … 続きを読む

カテゴリー: cs.CV, cs.RO | EventFly: Event Camera Perception from Ground to the Sky はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約 現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタス … 続きを読む

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません