月別アーカイブ: 2025年1月

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models

要約 大規模ビジョン言語モデル (LVLM) は、事前トレーニングされたビジョン … 続きを読む

カテゴリー: cs.CV, cs.LG | Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models はコメントを受け付けていません

Evaluating alignment between humans and neural network representations in image-based learning tasks

要約 人間はシーンやオブジェクトを豊富な特徴空間で表現し、少数の例を使用してカテ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Evaluating alignment between humans and neural network representations in image-based learning tasks はコメントを受け付けていません

VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization

要約 ビデオのカラー化は、時間的な一貫性と構造的な完全性を維持しながら、グレース … 続きを読む

カテゴリー: cs.CV | VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization はコメントを受け付けていません

Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis

要約 感情を正確に理解することは、人間とコンピューターのインタラクションなどの分 … 続きを読む

カテゴリー: cs.CV | Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis はコメントを受け付けていません

AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation

要約 最近、大規模な生成モデルは、優れたテキストから画像への生成機能を実証しまし … 続きを読む

カテゴリー: cs.CV | AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation はコメントを受け付けていません

HydraMix: Multi-Image Feature Mixing for Small Data Image Classification

要約 ディープ ニューラル ネットワークをトレーニングするには、多数の注釈付きサ … 続きを読む

カテゴリー: cs.CV | HydraMix: Multi-Image Feature Mixing for Small Data Image Classification はコメントを受け付けていません

A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

要約 顔認識技術はさまざまなアプリケーションでますます使用されていますが、顔のな … 続きを読む

カテゴリー: cs.AI, cs.CV | A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps はコメントを受け付けていません

AdaFV: Accelerating VLMs with Self-Adaptive Cross-Modality Attention Mixture

要約 VLM の成功は、多くの場合、入力画像を複数のクロップに適応的に拡張して画 … 続きを読む

カテゴリー: cs.CV | AdaFV: Accelerating VLMs with Self-Adaptive Cross-Modality Attention Mixture はコメントを受け付けていません

Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms

要約 少数ショット分類のコンテキストでは、満足のいくパフォーマンスを維持しながら … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms はコメントを受け付けていません

STROOBnet Optimization via GPU-Accelerated Proximal Recurrence Strategies

要約 時空間ネットワークの観察機能は、複数のセクターにわたる正確なデータ収集と情 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MA | STROOBnet Optimization via GPU-Accelerated Proximal Recurrence Strategies はコメントを受け付けていません