月別アーカイブ: 2024年1月

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

要約 参照ビデオ オブジェクト セグメンテーション (RVOS) は、自然言語参 … 続きを読む

カテゴリー: cs.CV | Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation はコメントを受け付けていません

PoseScript: Linking 3D Human Poses and Natural Language

要約 自然言語は、画像キャプション、視覚的な質問応答、クロスモーダル検索など、多 … 続きを読む

カテゴリー: cs.CV | PoseScript: Linking 3D Human Poses and Natural Language はコメントを受け付けていません

Dense 3D Reconstruction Through Lidar: A Comparative Study on Ex-vivo Porcine Tissue

要約 新しいセンシング技術とより高度な処理アルゴリズムにより、コンピューター統合 … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | Dense 3D Reconstruction Through Lidar: A Comparative Study on Ex-vivo Porcine Tissue はコメントを受け付けていません

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering

要約 Video Question Answering (VideoQA) は、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering はコメントを受け付けていません

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

要約 マルチモーダルな大規模言語モデルの画期的な進歩により、高度な推論能力と世界 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge はコメントを受け付けていません

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

要約 テキストベースのビデオ セグメンテーションは、ビデオ内の自然言語参照オブジ … 続きを読む

カテゴリー: cs.CV | ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation はコメントを受け付けていません

Tool-LMM: A Large Multi-Modal Model for Tool Agent Learning

要約 最近、自然言語理解および生成タスクにおける大規模言語モデル (LLM) の … 続きを読む

カテゴリー: cs.CV | Tool-LMM: A Large Multi-Modal Model for Tool Agent Learning はコメントを受け付けていません

Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion

要約 可視(RGB)画像および赤外線(IR)画像における物体検出は、近年広く適用 … 続きを読む

カテゴリー: cs.CV | Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion はコメントを受け付けていません

Bridging the gap between image coding for machines and humans

要約 マシン用画像コーディング (ICM) は、マシン ビジョン分析の精度の低下 … 続きを読む

カテゴリー: cs.CV, eess.IV | Bridging the gap between image coding for machines and humans はコメントを受け付けていません

Character Recognition in Byzantine Seals with Deep Neural Networks

要約 印鑑は小さなコインの形をした工芸品で、主に鉛でできており、文字を封印するた … 続きを読む

カテゴリー: cs.CV | Character Recognition in Byzantine Seals with Deep Neural Networks はコメントを受け付けていません