cs.CV」カテゴリーアーカイブ

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

要約 Vision-and-Language Navigation (VLN) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation はコメントを受け付けていません

ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection

要約 最先端のアクティブ話者検出 (ASD) アプローチは、主に音声と顔の特徴を … 続きを読む

カテゴリー: cs.CV | ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection はコメントを受け付けていません

Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification

要約 ドメイン固有の知識は、さまざまな視覚タスクに対処するのに大きく貢献できます … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification はコメントを受け付けていません

Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis

要約 生地の裁断と仕立てに不可欠な青写真である縫製パターンは、デザインコンセプト … 続きを読む

カテゴリー: cs.CV, cs.GR | Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis はコメントを受け付けていません

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models

要約 マルチモーダル アプリケーションの台頭により、複雑な画像ベースのクエリを理 … 続きを読む

カテゴリー: cs.AI, cs.CV | ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models はコメントを受け付けていません

Fair Primal Dual Splitting Method for Image Inverse Problems

要約 画像逆問題には、画像科学の重要な分野である画像処理、超解像度、コンピュータ … 続きを読む

カテゴリー: cs.CV, math.OC | Fair Primal Dual Splitting Method for Image Inverse Problems はコメントを受け付けていません

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

要約 画像内のテキストが豊富なビジュアル コンテンツを理解する詳細なキャプション … 続きを読む

カテゴリー: cs.CV | Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning はコメントを受け付けていません

Image Retrieval Methods in the Dissimilarity Space

要約 画像検索方法は、類似性照合のための判別クエリと参照 (ギャラリー) 特徴表 … 続きを読む

カテゴリー: cs.AI, cs.CV | Image Retrieval Methods in the Dissimilarity Space はコメントを受け付けていません

Synthetic Vision: Training Vision-Language Models to Understand Physics

要約 動的環境における物体の動作の解釈、理解、予測を含む物理的推論は、現在の視覚 … 続きを読む

カテゴリー: cs.AI, cs.CV | Synthetic Vision: Training Vision-Language Models to Understand Physics はコメントを受け付けていません

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

要約 オープンボキャブラリーのパノプティックセグメンテーションは、境界のないボキ … 続きを読む

カテゴリー: cs.CV | EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation はコメントを受け付けていません