月別アーカイブ: 2024年5月

Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models

投稿日: 2024年5月3日作成者: jarxiv

要約事前トレーニングされた対照的な視覚言語モデルは、幅広いタスクにわたって優れ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning

投稿日: 2024年5月3日作成者: jarxiv

要約 AI Foundation モデルは、放射線医学などの医療分野を含むさまざ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

V-FLUTE: Visual Figurative Language Understanding with Textual Explanations

投稿日: 2024年5月3日作成者: jarxiv

要約大規模ビジョン言語モデル (VLM) は、視覚的な質問応答や視覚的な含意な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MANTIS: Interleaved Multi-Image Instruction Tuning

投稿日: 2024年5月3日作成者: jarxiv

要約近年、単一画像のビジョン言語タスクを効果的に解決するための、多数の大規模マ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Compact 3D Scene Representation via Self-Organizing Gaussian Grids

投稿日: 2024年5月3日作成者: jarxiv

要約 3D ガウススプラッティングは、静的な 3D シーンのモデリングに非常に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Navigating Heterogeneity and Privacy in One-Shot Federated Learning with Diffusion Models

投稿日: 2024年5月3日作成者: jarxiv

要約フェデレーションラーニング (FL) を使用すると、データプライバシー … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

LocInv: Localization-aware Inversion for Text-Guided Image Editing

投稿日: 2024年5月3日作成者: jarxiv

要約大規模な Text-to-Image (T2I) 拡散モデルは、テキスト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Perception and Localization of Macular Degeneration Applying Convolutional Neural Network, ResNet and Grad-CAM

投稿日: 2024年5月3日作成者: jarxiv

要約罹患した患者にぼやけた視界を送るよく知られた網膜疾患は、黄斑変性症です。 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

PAM-UNet: Shifting Attention on Region of Interest in Medical Images

投稿日: 2024年5月3日作成者: jarxiv

要約コンピュータ支援セグメンテーション手法は、医療従事者が診断結果を向上させる … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA

投稿日: 2024年5月3日作成者: jarxiv

要約最近の研究では、いくつかの画像例を提供するだけで、テキストから画像への拡散 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年5月

Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models

Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning

V-FLUTE: Visual Figurative Language Understanding with Textual Explanations

MANTIS: Interleaved Multi-Image Instruction Tuning

Compact 3D Scene Representation via Self-Organizing Gaussian Grids

Navigating Heterogeneity and Privacy in One-Shot Federated Learning with Diffusion Models

LocInv: Localization-aware Inversion for Text-Guided Image Editing

Perception and Localization of Macular Degeneration Applying Convolutional Neural Network, ResNet and Grad-CAM

PAM-UNet: Shifting Attention on Region of Interest in Medical Images

Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA

最近の投稿

最近のコメント

アーカイブ

カテゴリー