cs.CV」カテゴリーアーカイブ

An Accurate and Real-time Relative Pose Estimation from Triple Point-line Images by Decoupling Rotation and Translation

要約 ライン フィーチャは、人工環境におけるポイント フィーチャを補完する有効な … 続きを読む

カテゴリー: cs.CV, cs.RO | An Accurate and Real-time Relative Pose Estimation from Triple Point-line Images by Decoupling Rotation and Translation はコメントを受け付けていません

ActiveGAMER: Active GAussian Mapping through Efficient Rendering

要約 3D ガウス スプラッティング (3DGS) を利用して高品質でリアルタイ … 続きを読む

カテゴリー: cs.CV, cs.RO | ActiveGAMER: Active GAussian Mapping through Efficient Rendering はコメントを受け付けていません

Multi-face emotion detection for effective Human-Robot Interaction

要約 モバイル デバイスへの対話インターフェイスの統合は広く普及しており、幅広い … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | Multi-face emotion detection for effective Human-Robot Interaction はコメントを受け付けていません

SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis

要約 現実的な人間とオブジェクトのインタラクション モーションを合成することは、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis はコメントを受け付けていません

LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models

要約 強化された視覚的理解は、マルチモーダル大規模言語モデル (MLLM) の基 … 続きを読む

カテゴリー: cs.CL, cs.CV | LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models はコメントを受け付けていません

Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

要約 この論文では、マルチモーダル大規模言語モデル (MLLM) の無害性アライ … 続きを読む

カテゴリー: cs.CL, cs.CV | Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models はコメントを受け付けていません

MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

要約 物体、シーン、または状況を比較する能力は、日常生活における効果的な意思決定 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs はコメントを受け付けていません

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

要約 組織病理学における診断には、グローバルな全スライド画像 (WSI) 解析が … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos はコメントを受け付けていません

II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models

要約 マルチモーダル大規模言語モデル (MLLM) の開発における急速な進歩によ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models はコメントを受け付けていません

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

要約 ビジョン言語モデル (VLM) の開発は、大規模で多様なマルチモーダル デ … 続きを読む

カテゴリー: cs.CL, cs.CV | BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature はコメントを受け付けていません