投稿者「jarxiv」のアーカイブ

The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning

要約 LiDAR は自動運転において重要なセンサーであり、一般的にカメラと併用さ … 続きを読む

カテゴリー: cs.CV | The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning はコメントを受け付けていません

Comparison of Various SLAM Systems for Mobile Robot in an Indoor Environment

要約 この記事では、さまざまな ROS ベースの SLAM システムによって計算 … 続きを読む

カテゴリー: cs.CV, cs.RO | Comparison of Various SLAM Systems for Mobile Robot in an Indoor Environment はコメントを受け付けていません

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models

要約 大規模ビジョン言語モデル (LVLM) は、事前トレーニングされたビジョン … 続きを読む

カテゴリー: cs.CV, cs.LG | Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models はコメントを受け付けていません

Evaluating alignment between humans and neural network representations in image-based learning tasks

要約 人間はシーンやオブジェクトを豊富な特徴空間で表現し、少数の例を使用してカテ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Evaluating alignment between humans and neural network representations in image-based learning tasks はコメントを受け付けていません

VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization

要約 ビデオのカラー化は、時間的な一貫性と構造的な完全性を維持しながら、グレース … 続きを読む

カテゴリー: cs.CV | VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization はコメントを受け付けていません

Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis

要約 感情を正確に理解することは、人間とコンピューターのインタラクションなどの分 … 続きを読む

カテゴリー: cs.CV | Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis はコメントを受け付けていません

AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation

要約 最近、大規模な生成モデルは、優れたテキストから画像への生成機能を実証しまし … 続きを読む

カテゴリー: cs.CV | AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation はコメントを受け付けていません

HydraMix: Multi-Image Feature Mixing for Small Data Image Classification

要約 ディープ ニューラル ネットワークをトレーニングするには、多数の注釈付きサ … 続きを読む

カテゴリー: cs.CV | HydraMix: Multi-Image Feature Mixing for Small Data Image Classification はコメントを受け付けていません

A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

要約 顔認識技術はさまざまなアプリケーションでますます使用されていますが、顔のな … 続きを読む

カテゴリー: cs.AI, cs.CV | A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps はコメントを受け付けていません

AdaFV: Accelerating VLMs with Self-Adaptive Cross-Modality Attention Mixture

要約 VLM の成功は、多くの場合、入力画像を複数のクロップに適応的に拡張して画 … 続きを読む

カテゴリー: cs.CV | AdaFV: Accelerating VLMs with Self-Adaptive Cross-Modality Attention Mixture はコメントを受け付けていません