「cs.CV」カテゴリーアーカイブ

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

投稿日: 2025年5月29日作成者: jarxiv

要約テキスト間拡散モデルの採用は、信頼性に対する懸念を引き起こし、キャリブレー … 続きを読む →

カテゴリー: cs.CV, cs.LG, stat.ML | コメントを受け付けていません

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

投稿日: 2025年5月29日作成者: jarxiv

要約画像の復帰は、さまざまなマルチモーダルタスクの品質が向上したトレーニングデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization

投稿日: 2025年5月29日作成者: jarxiv

要約ニューラルレンダリング方法は、2D画像から3Dシーンを再構築する能力に大き … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions

投稿日: 2025年5月29日作成者: jarxiv

要約密に注釈付きの画像キャプションは、堅牢な視覚系のアラインメントの学習を大幅 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Spatial Knowledge Graph-Guided Multimodal Synthesis

投稿日: 2025年5月29日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）の最近の進歩により、能力が大幅に向 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

ObjectClear: Complete Object Removal via Object-Effect Attention

投稿日: 2025年5月29日作成者: jarxiv

要約オブジェクトの削除には、ターゲットオブジェクトだけでなく、影や反射などの効 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation

投稿日: 2025年5月29日作成者: jarxiv

要約最近の拡散モデルを活用して、LIDARベースの大規模な3Dシーン生成は大き … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

投稿日: 2025年5月29日作成者: jarxiv

要約トーキングヘッドやトーキングボディジェネレーションなどのオーディオ駆動型の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Sherlock: Self-Correcting Reasoning in Vision-Language Models

投稿日: 2025年5月29日作成者: jarxiv

要約推論ビジョン言語モデル（VLM）は、複雑なマルチモーダルタスクで有望なパフ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

投稿日: 2025年5月29日作成者: jarxiv

要約最近の大規模な視覚言語モデル（LVLMS）は、より細かい粒度の視覚的知覚と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization

Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions

Spatial Knowledge Graph-Guided Multimodal Synthesis

ObjectClear: Complete Object Removal via Object-Effect Attention

SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

Sherlock: Self-Correcting Reasoning in Vision-Language Models

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー