cs.CV」カテゴリーアーカイブ

Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models

要約 最も一般的な原発性骨癌である骨肉腫では、効果的な治療計画と予後のために、し … 続きを読む

カテゴリー: cs.CV | Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models はコメントを受け付けていません

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

要約 単眼映像から正確な3Dモデルを効率的に再構成することは、コンピュータビジョ … 続きを読む

カテゴリー: cs.CV | VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment はコメントを受け付けていません

InvSeg: Test-Time Prompt Inversion for Semantic Segmentation

要約 テキスト-画像拡散モデルから得られる注意マップにおける視覚-テキスト相関は … 続きを読む

カテゴリー: cs.CV | InvSeg: Test-Time Prompt Inversion for Semantic Segmentation はコメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction はコメントを受け付けていません

SVFR: A Unified Framework for Generalized Video Face Restoration

要約 顔復元(Face Restoration:FR)は、劣化した入力から高品質 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | SVFR: A Unified Framework for Generalized Video Face Restoration はコメントを受け付けていません

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions

要約 生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む

カテゴリー: cs.CV | Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions はコメントを受け付けていません

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

要約 近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む

カテゴリー: cs.CV | GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models はコメントを受け付けていません

TrajLearn: Trajectory Prediction Learning using Deep Generative Models

要約 軌跡予測は、現在位置と過去の移動データを用いてエンティティの将来の経路を推 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | TrajLearn: Trajectory Prediction Learning using Deep Generative Models はコメントを受け付けていません

Predicate Invention from Pixels via Pretrained Vision-Language Models

要約 我々の目的は、画像という形の生のセンサー入力が与えられた、変動が激しく、組 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Predicate Invention from Pixels via Pretrained Vision-Language Models はコメントを受け付けていません

PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM

要約 連続したビデオデータから3Dシーンの幾何学的、意味的、およびインスタンス情 … 続きを読む

カテゴリー: cs.CV, cs.RO | PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM はコメントを受け付けていません