投稿者「jarxiv」のアーカイブ

Mobi-$π$: Mobilizing Your Robot Learning Policy

投稿日: 2025年5月30日作成者: jarxiv

要約学んだ視覚運動ポリシーは、ますます複雑な操作タスクを実行することができます … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

投稿日: 2025年5月30日作成者: jarxiv

要約 MLLMSは、最近のビデオ質問のために広く研究されています。ただし、既存 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

投稿日: 2025年5月30日作成者: jarxiv

要約視覚的なプロンプトチューニング（VPT）は、ほとんどのモデルパラメーターを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CLDTracker: A Comprehensive Language Description for Visual Tracking

投稿日: 2025年5月30日作成者: jarxiv

要約投票は、動的な外観の変化、閉塞、および背景乱れにより、コンピュータービジョ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0)

投稿日: 2025年5月30日作成者: jarxiv

要約違法で、報告されていない、規制されていない（IUU）釣りは、海洋生息地に対 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

投稿日: 2025年5月30日作成者: jarxiv

要約画像とメタデータの間の複雑な関係を捉える新しいネストされたコントラスト学習 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

投稿日: 2025年5月30日作成者: jarxiv

要約非調整された画像コレクションからの新しいビュー合成のためのフィードフォワー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FMG-Det: Foundation Model Guided Robust Object Detection

投稿日: 2025年5月30日作成者: jarxiv

要約オブジェクトの境界をラベル付けする際の固有の主観性のため、オブジェクト検出 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

投稿日: 2025年5月30日作成者: jarxiv

要約フィードフォワード3Dガウススプラッティング（3DGS）モデルは最近、新し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Mobi-$π$: Mobilizing Your Robot Learning Policy

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

CLDTracker: A Comprehensive Language Description for Visual Tracking

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0)

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

FMG-Det: Foundation Model Guided Robust Object Detection

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

最近の投稿

最近のコメント

アーカイブ

カテゴリー