投稿者「jarxiv」のアーカイブ

Mobi-$π$: Mobilizing Your Robot Learning Policy

要約 学んだ視覚運動ポリシーは、ますます複雑な操作タスクを実行することができます … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Mobi-$π$: Mobilizing Your Robot Learning Policy はコメントを受け付けていません

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

要約 MLLMSは、最近のビデオ質問のために広く研究されています。 ただし、既存 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos はコメントを受け付けていません

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

要約 視覚的なプロンプトチューニング(VPT)は、ほとんどのモデルパラメーターを … 続きを読む

カテゴリー: cs.CV | DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers はコメントを受け付けていません

CLDTracker: A Comprehensive Language Description for Visual Tracking

要約 投票は、動的な外観の変化、閉塞、および背景乱れにより、コンピュータービジョ … 続きを読む

カテゴリー: cs.AI, cs.CV | CLDTracker: A Comprehensive Language Description for Visual Tracking はコメントを受け付けていません

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0)

要約 違法で、報告されていない、規制されていない(IUU)釣りは、海洋生息地に対 … 続きを読む

カテゴリー: cs.CV | Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0) はコメントを受け付けていません

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

要約 画像とメタデータの間の複雑な関係を捉える新しいネストされたコントラスト学習 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning はコメントを受け付けていません

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

要約 非調整された画像コレクションからの新しいビュー合成のためのフィードフォワー … 続きを読む

カテゴリー: cs.CV | AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views はコメントを受け付けていません

FMG-Det: Foundation Model Guided Robust Object Detection

要約 オブジェクトの境界をラベル付けする際の固有の主観性のため、オブジェクト検出 … 続きを読む

カテゴリー: cs.CV | FMG-Det: Foundation Model Guided Robust Object Detection はコメントを受け付けていません

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

要約 既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応する … 続きを読む

カテゴリー: cs.CV, cs.MM | PixelThink: Towards Efficient Chain-of-Pixel Reasoning はコメントを受け付けていません

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

要約 フィードフォワード3Dガウススプラッティング(3DGS)モデルは最近、新し … 続きを読む

カテゴリー: cs.CV | ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS はコメントを受け付けていません