月別アーカイブ: 2024年1月

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

投稿日: 2024年1月22日作成者: jarxiv

要約参照ビデオオブジェクトセグメンテーション (RVOS) は、自然言語参 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PoseScript: Linking 3D Human Poses and Natural Language

投稿日: 2024年1月22日作成者: jarxiv

要約自然言語は、画像キャプション、視覚的な質問応答、クロスモーダル検索など、多 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Dense 3D Reconstruction Through Lidar: A Comparative Study on Ex-vivo Porcine Tissue

投稿日: 2024年1月22日作成者: jarxiv

要約新しいセンシング技術とより高度な処理アルゴリズムにより、コンピューター統合 … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering

投稿日: 2024年1月22日作成者: jarxiv

要約 Video Question Answering (VideoQA) は、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

投稿日: 2024年1月22日作成者: jarxiv

要約マルチモーダルな大規模言語モデルの画期的な進歩により、高度な推論能力と世界 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

投稿日: 2024年1月22日作成者: jarxiv

要約テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Tool-LMM: A Large Multi-Modal Model for Tool Agent Learning

投稿日: 2024年1月22日作成者: jarxiv

要約最近、自然言語理解および生成タスクにおける大規模言語モデル (LLM) の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion

投稿日: 2024年1月22日作成者: jarxiv

要約可視（RGB）画像および赤外線（IR）画像における物体検出は、近年広く適用 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Bridging the gap between image coding for machines and humans

投稿日: 2024年1月22日作成者: jarxiv

要約マシン用画像コーディング (ICM) は、マシンビジョン分析の精度の低下 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Character Recognition in Byzantine Seals with Deep Neural Networks

投稿日: 2024年1月22日作成者: jarxiv

要約印鑑は小さなコインの形をした工芸品で、主に鉛でできており、文字を封印するた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年1月

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

PoseScript: Linking 3D Human Poses and Natural Language

Dense 3D Reconstruction Through Lidar: A Comparative Study on Ex-vivo Porcine Tissue

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

Tool-LMM: A Large Multi-Modal Model for Tool Agent Learning

Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion

Bridging the gap between image coding for machines and humans

Character Recognition in Byzantine Seals with Deep Neural Networks

最近の投稿

最近のコメント

アーカイブ

カテゴリー