月別アーカイブ: 2024年8月

SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation

要約 自己教師付き単眼深度推定は、自律走行やロボット工学への応用で大きな注目を集 … 続きを読む

カテゴリー: cs.CV, eess.IV | SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation はコメントを受け付けていません

A Backbone for Long-Horizon Robot Task Understanding

要約 ロボットのエンド・ツー・エンドの学習、特に長ホライズンのタスクの学習は、し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | A Backbone for Long-Horizon Robot Task Understanding はコメントを受け付けていません

StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

要約 マルチモーダルセマンティックセグメンテーションは、複雑なシーンにおけるセグ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation はコメントを受け付けていません

Accurate and Efficient Event-based Semantic Segmentation Using Adaptive Spiking Encoder-Decoder Network

要約 スパイキングニューラルネットワーク(SNN)は、低消費電力でイベントドリブ … 続きを読む

カテゴリー: cs.CV, cs.NE | Accurate and Efficient Event-based Semantic Segmentation Using Adaptive Spiking Encoder-Decoder Network はコメントを受け付けていません

PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval

要約 クロスモーダル検索の領域では、マルチメディア内の多様なモダリティをシームレ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.MM | PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval はコメントを受け付けていません

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

要約 マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語理解・生成タス … 続きを読む

カテゴリー: cs.CV, cs.MM | Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs はコメントを受け付けていません

Balanced Residual Distillation Learning for 3D Point Cloud Class-Incremental Semantic Segmentation

要約 クラス増加学習(CIL)は、継続的に追加される新しいクラスから学習すること … 続きを読む

カテゴリー: cs.CV | Balanced Residual Distillation Learning for 3D Point Cloud Class-Incremental Semantic Segmentation はコメントを受け付けていません

Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance

要約 テキストから画像への生成モデルの人気が高まるにつれ、そのリスクや偏りを理解 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance はコメントを受け付けていません

MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection

要約 実世界のシナリオでは、可視(RGB)や赤外(IR)のような複数のモダリティ … 続きを読む

カテゴリー: cs.CV | MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection はコメントを受け付けていません

Motion-aware Latent Diffusion Models for Video Frame Interpolation

要約 AIGCの進歩に伴い、ビデオフレーム補間(Video Frame Inte … 続きを読む

カテゴリー: cs.CV | Motion-aware Latent Diffusion Models for Video Frame Interpolation はコメントを受け付けていません