「cs.CV」カテゴリーアーカイブ

Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models

投稿日: 2025年1月6日作成者: jarxiv

要約最も一般的な原発性骨癌である骨肉腫では、効果的な治療計画と予後のために、し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

投稿日: 2025年1月6日作成者: jarxiv

要約単眼映像から正確な3Dモデルを効率的に再構成することは、コンピュータビジョ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

InvSeg: Test-Time Prompt Inversion for Semantic Segmentation

投稿日: 2025年1月6日作成者: jarxiv

要約テキスト-画像拡散モデルから得られる注意マップにおける視覚-テキスト相関は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

投稿日: 2025年1月6日作成者: jarxiv

要約近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

SVFR: A Unified Framework for Generalized Video Face Restoration

投稿日: 2025年1月6日作成者: jarxiv

要約顔復元（Face Restoration：FR）は、劣化した入力から高品質 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

投稿日: 2025年1月6日作成者: jarxiv

要約生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

投稿日: 2025年1月6日作成者: jarxiv

要約近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TrajLearn: Trajectory Prediction Learning using Deep Generative Models

投稿日: 2025年1月5日作成者: jarxiv

要約軌跡予測は、現在位置と過去の移動データを用いてエンティティの将来の経路を推 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Predicate Invention from Pixels via Pretrained Vision-Language Models

投稿日: 2025年1月5日作成者: jarxiv

要約我々の目的は、画像という形の生のセンサー入力が与えられた、変動が激しく、組 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM

投稿日: 2025年1月5日作成者: jarxiv

要約連続したビデオデータから3Dシーンの幾何学的、意味的、およびインスタンス情 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

InvSeg: Test-Time Prompt Inversion for Semantic Segmentation

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

SVFR: A Unified Framework for Generalized Video Face Restoration

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

TrajLearn: Trajectory Prediction Learning using Deep Generative Models

Predicate Invention from Pixels via Pretrained Vision-Language Models

PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM

最近の投稿

最近のコメント

アーカイブ

カテゴリー