「cs.CV」カテゴリーアーカイブ

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

投稿日: 2024年12月12日作成者: jarxiv

要約 Vision-and-Language Navigation (VLN) … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection

投稿日: 2024年12月12日作成者: jarxiv

要約最先端のアクティブ話者検出 (ASD) アプローチは、主に音声と顔の特徴を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification

投稿日: 2024年12月12日作成者: jarxiv

要約ドメイン固有の知識は、さまざまな視覚タスクに対処するのに大きく貢献できます … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis

投稿日: 2024年12月12日作成者: jarxiv

要約生地の裁断と仕立てに不可欠な青写真である縫製パターンは、デザインコンセプト … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models

投稿日: 2024年12月12日作成者: jarxiv

要約マルチモーダルアプリケーションの台頭により、複雑な画像ベースのクエリを理 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Fair Primal Dual Splitting Method for Image Inverse Problems

投稿日: 2024年12月12日作成者: jarxiv

要約画像逆問題には、画像科学の重要な分野である画像処理、超解像度、コンピュータ … 続きを読む →

カテゴリー: cs.CV, math.OC | コメントを受け付けていません

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

投稿日: 2024年12月12日作成者: jarxiv

要約画像内のテキストが豊富なビジュアルコンテンツを理解する詳細なキャプション … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Image Retrieval Methods in the Dissimilarity Space

投稿日: 2024年12月12日作成者: jarxiv

要約画像検索方法は、類似性照合のための判別クエリと参照 (ギャラリー) 特徴表 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Synthetic Vision: Training Vision-Language Models to Understand Physics

投稿日: 2024年12月12日作成者: jarxiv

要約動的環境における物体の動作の解釈、理解、予測を含む物理的推論は、現在の視覚 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

投稿日: 2024年12月12日作成者: jarxiv

要約オープンボキャブラリーのパノプティックセグメンテーションは、境界のないボキ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection

Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification

Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models

Fair Primal Dual Splitting Method for Image Inverse Problems

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

Image Retrieval Methods in the Dissimilarity Space

Synthetic Vision: Training Vision-Language Models to Understand Physics

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー