cs.CV」カテゴリーアーカイブ

Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions

要約 マルチモーダル大規模言語モデル (MLLM) における幻覚は、実際の応用を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions はコメントを受け付けていません

It’s Just Another Day: Unique Video Captioning by Discriminative Prompting

要約 長いビデオには、繰り返しのアクション、イベント、ショットが多数含まれていま … 続きを読む

カテゴリー: cs.CV | It’s Just Another Day: Unique Video Captioning by Discriminative Prompting はコメントを受け付けていません

Robotic Arm Platform for Multi-View Image Acquisition and 3D Reconstruction in Minimally Invasive Surgery

要約 低侵襲手術 (MIS) は、回復時間の短縮や患者の外傷の最小化などの大きな … 続きを読む

カテゴリー: cs.CV, cs.RO | Robotic Arm Platform for Multi-View Image Acquisition and 3D Reconstruction in Minimally Invasive Surgery はコメントを受け付けていません

LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations

要約 対照的インスタンス識別手法は、画像分類や物体検出などの下流タスクにおいて教 … 続きを読む

カテゴリー: cs.CV | LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations はコメントを受け付けていません

RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation

要約 Segment Anything (SAM) の出現により、特に画像編集タ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, I.4.6 | RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation はコメントを受け付けていません

MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images

要約 この論文では、テキスト情報に基づいて高品質の 3D 肺 CT 画像を生成す … 続きを読む

カテゴリー: cs.CV, eess.IV | MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images はコメントを受け付けていません

Learning Truncated Causal History Model for Video Restoration

要約 ビデオ復元に対する重要な課題の 1 つは、動きによって支配されるビデオ フ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Learning Truncated Causal History Model for Video Restoration はコメントを受け付けていません

YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection

要約 無人航空機 (UAV) から絶縁体欠陥を特定するための既存の検出方法は、複 … 続きを読む

カテゴリー: cs.CV | YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection はコメントを受け付けていません

MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

要約 トーキングフェイス生成 (TFG) は、ターゲット ID の顔をアニメーシ … 続きを読む

カテゴリー: cs.CV | MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes はコメントを受け付けていません

Patch-Based Diffusion Models Beat Whole-Image Models for Mismatched Distribution Inverse Problems

要約 拡散モデルは、強力な画像事前分布を学習できるため、逆問題の解決において優れ … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Patch-Based Diffusion Models Beat Whole-Image Models for Mismatched Distribution Inverse Problems はコメントを受け付けていません