「cs.CV」カテゴリーアーカイブ

Survey on Vision-Language-Action Models

投稿日: 2025年6月3日作成者: jarxiv

要約このペーパーでは、Vision-Language-action（VLA）モ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue

投稿日: 2025年6月3日作成者: jarxiv

要約対面の相互作用では、音声やジェスチャーを含む複数のモダリティを使用して、情 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Beyond Pretty Pictures: Combined Single- and Multi-Image Super-resolution for Sentinel-2 Images

投稿日: 2025年6月3日作成者: jarxiv

要約スーパー解像度の目的は、高周波の詳細を再構築することにより、衛星画像の解像 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

投稿日: 2025年6月2日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルは、ロボット工 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

投稿日: 2025年6月2日作成者: jarxiv

要約一般化可能な二近操作ポリシーを学ぶことは、大きなアクションスペースと調整さ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping

投稿日: 2025年6月2日作成者: jarxiv

要約 3Dロボット操作の最近の進歩により、日常のオブジェクトの把握が改善されまし … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Black-box Adversarial Attacks on CNN-based SLAM Algorithms

投稿日: 2025年6月2日作成者: jarxiv

要約深い学習の継続的な進歩により、機能検出が大幅に進歩し、同時ローカリゼーショ … 続きを読む →

カテゴリー: (Primary), 68M25, 68T40, 68T45, cs.CV, cs.RO | コメントを受け付けていません

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator

投稿日: 2025年6月2日作成者: jarxiv

要約 AIGC画像はさまざまな分野で普及していますが、アーティファクトや不自然な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Conformal Prediction for Zero-Shot Models

投稿日: 2025年6月2日作成者: jarxiv

要約大規模に事前に訓練されたビジョン言語モデルは、下流タスクに対する前例のない … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adversarial Pruning: A Survey and Benchmark of Pruning Methods for Adversarial Robustness

投稿日: 2025年6月2日作成者: jarxiv

要約最近の研究では、ネットワークのサイズを縮小しながら、敵対的な例、つまり誤分 … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Survey on Vision-Language-Action Models

I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue

Beyond Pretty Pictures: Combined Single- and Multi-Image Super-resolution for Sentinel-2 Images

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping

Black-box Adversarial Attacks on CNN-based SLAM Algorithms

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator

Conformal Prediction for Zero-Shot Models

Adversarial Pruning: A Survey and Benchmark of Pruning Methods for Adversarial Robustness

最近の投稿

最近のコメント

アーカイブ

カテゴリー