「cs.CV」カテゴリーアーカイブ

Towards Harmless Multimodal Assistants with Blind Preference Optimization

投稿日: 2025年3月19日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、マルチモーダルの理解、推論、お … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Zero-Shot Action Recognition in Surveillance Videos

投稿日: 2025年3月19日作成者: jarxiv

要約公共スペースでの監視に対する需要の高まりは、人的資源の不足により大きな課題 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising

投稿日: 2025年3月19日作成者: jarxiv

要約複数のブラックボックス、事前に訓練されたLDR画像拡散モデルの協調アクショ … 続きを読む →

カテゴリー: cs.CV, cs.GR, eess.IV | コメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

投稿日: 2025年3月19日作成者: jarxiv

要約視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data

投稿日: 2025年3月19日作成者: jarxiv

要約リアルタイムマルチオブジェクトトラッキング（MOT）と比較して、オフライン … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models

投稿日: 2025年3月19日作成者: jarxiv

要約潜在的なビデオ拡散モデル（LVDMS）の最近の進歩は、ビデオ変動自動エンコ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

投稿日: 2025年3月19日作成者: jarxiv

要約器用なロボットの手は、低ダイバーシティデータで訓練されたモデルの制限により … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ADAPT: An Autonomous Forklift for Construction Site Operation

投稿日: 2025年3月19日作成者: jarxiv

要約効率的な材料物流は、建設業界のコストとスケジュールを管理する上で重要な役割 … 続きを読む →

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation

投稿日: 2025年3月19日作成者: jarxiv

要約ストーリーテリングビデオジェネレーション（SVG）は、構造化された物語に続 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Multi-Prototype Embedding Refinement for Semi-Supervised Medical Image Segmentation

投稿日: 2025年3月19日作成者: jarxiv

要約医療画像セグメンテーションは、ボクセルレベルの解剖学的構造を特定することを … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Towards Harmless Multimodal Assistants with Blind Preference Optimization

Zero-Shot Action Recognition in Surveillance Videos

Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data

LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

ADAPT: An Autonomous Forklift for Construction Site Operation

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation

Multi-Prototype Embedding Refinement for Semi-Supervised Medical Image Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー