「cs.CV」カテゴリーアーカイブ

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

投稿日: 2025年1月5日作成者: jarxiv

要約シーン座標回帰（SCR）を用いた学習ベースの視覚的定位法は、マップサイズを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Multi-Modal Video Feature Extraction for Popularity Prediction

投稿日: 2025年1月5日作成者: jarxiv

要約この研究は、動画そのものとそれに関連する特徴を用いて、短い動画の人気を予測 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

投稿日: 2025年1月5日作成者: jarxiv

要約 Transformerアーキテクチャを持つ潜在拡散モデルは、忠実度の高い画 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Object-level Visual Prompts for Compositional Image Generation

投稿日: 2025年1月5日作成者: jarxiv

要約我々は、テキストから画像への拡散モデルの中で、オブジェクトレベルの視覚的プ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

Unifying Specialized Visual Encoders for Video Language Models

投稿日: 2025年1月5日作成者: jarxiv

要約最近の大規模言語モデル（Large Language Models：LLM … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

投稿日: 2025年1月5日作成者: jarxiv

要約生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

投稿日: 2025年1月5日作成者: jarxiv

要約映像生成における著しい進歩にもかかわらず、与えられたオブジェクトを映像に挿 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

投稿日: 2025年1月5日作成者: jarxiv

要約近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

投稿日: 2025年1月3日作成者: jarxiv

要約読唇術は、唇の動きを分析することで話し言葉を予測することを目的としています … 続きを読む →

カテゴリー: cs.CL, cs.CV, eess.AS, eess.IV | コメントを受け付けていません

Detection of adrenal anomalous findings in spinal CT images using multi model graph aggregation

投稿日: 2025年1月3日作成者: jarxiv

要約腰痛は、プライマリケア医に 2 番目に頻繁に報告される症状であり、人口の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

Multi-Modal Video Feature Extraction for Popularity Prediction

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Object-level Visual Prompts for Compositional Image Generation

Unifying Specialized Visual Encoders for Video Language Models

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

Detection of adrenal anomalous findings in spinal CT images using multi model graph aggregation

最近の投稿

最近のコメント

アーカイブ

カテゴリー