投稿者「jarxiv」のアーカイブ

Transferable Adversarial Attacks on Black-Box Vision-Language Models

要約 Vision Large Language Models(VLLM)は、テ … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

GeloVec: Higher Dimensional Geometric Smoothing for Coherent Visual Feature Extraction in Image Segmentation

要約 本稿では、セマンティックセグメンテーションのための新しいCNNベースの注意 … 続きを読む

カテゴリー: cs.CV | コメントする

Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs

要約 きめ細かな視覚認識(FGVR)には、視覚的に類似したカテゴリーを区別するこ … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network

要約 感情表現は一過性のものであり、マルチモーダルな手がかりの時間的なずれがある … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントする

Improving Editability in Image Generation with Layer-wise Memory

要約 現実の画像編集作業の多くは、望ましい結果を得るために複数の連続した編集を必 … 続きを読む

カテゴリー: cs.CV, eess.IV | コメントする

Towards Space Group Determination from EBSD Patterns: The Role of Deep Learning and High-throughput Dynamical Simulations

要約 新規材料の設計は、構造と物性の関係の理解にかかっている。しかし最近では、多 … 続きを読む

カテゴリー: cond-mat.mtrl-sci, cs.CV | コメントする

Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation

要約 生成モデルは、特にマルチモーダルアプリケーションにおいて、人工知能(AI) … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages

要約 ヘルスケアにおける人工知能の統合は、医療診断と患者ケアを改善するための新た … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

VSC: Visual Search Compositional Text-to-Image Diffusion Model

要約 テキストから画像への拡散モデルは、自然言語によるプロンプトからリアルなビジ … 続きを読む

カテゴリー: cs.CV | コメントする

Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy

要約 低高度経済(LAE)を支援するため、全地球測位システム(GPS)信号が利用 … 続きを読む

カテゴリー: cs.CV, cs.NI | コメントする