「cs.CV」カテゴリーアーカイブ

Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics

投稿日: 2025年1月3日作成者: jarxiv

要約 Explainable AI (XAI) は、無数の手法とその有効性を評価 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

投稿日: 2025年1月3日作成者: jarxiv

要約サウンドデザイナーやフォーリーアーティストは通常、ビデオ内の関心の … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Perception-guided Jailbreak against Text-to-Image Models

投稿日: 2025年1月3日作成者: jarxiv

要約近年、Text-to-Image (T2I) モデルがその目覚ましい進歩に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SegKAN: High-Resolution Medical Image Segmentation with Long-Distance Dependencies

投稿日: 2025年1月3日作成者: jarxiv

要約コンピューター断層撮影スキャンにおける肝血管は、画像の断片化やノイズ干渉を … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Familiarity-Based Open-Set Recognition Under Adversarial Attacks

投稿日: 2025年1月3日作成者: jarxiv

要約新しいカテゴリの識別である開集合認識 (OSR) は、現実世界のアプリケー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

GeoDiffuser: Geometry-Based Image Editing with Diffusion Models

投稿日: 2025年1月3日作成者: jarxiv

要約画像生成モデルの成功により、テキストやその他のユーザー入力に基づいて画像を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Edicho: Consistent Image Editing in the Wild

投稿日: 2025年1月3日作成者: jarxiv

要約ニーズが実証されているため、実際の画像全体で一貫した編集を行うことは、オブ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation

投稿日: 2025年1月3日作成者: jarxiv

要約この研究では、オブジェクトレベルとシーンレベルの両方で数秒でテキストか … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

投稿日: 2025年1月3日作成者: jarxiv

要約オーディオビジュアルビデオの解析は、弱いラベルによってビデオを分類すること … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis

投稿日: 2024年12月31日作成者: jarxiv

要約現実的な人間とオブジェクトのインタラクションモーションを合成することは、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

Perception-guided Jailbreak against Text-to-Image Models

SegKAN: High-Resolution Medical Image Segmentation with Long-Distance Dependencies

Familiarity-Based Open-Set Recognition Under Adversarial Attacks

GeoDiffuser: Geometry-Based Image Editing with Diffusion Models

Edicho: Consistent Image Editing in the Wild

Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー