cs.CV」カテゴリーアーカイブ

Towards Harmless Multimodal Assistants with Blind Preference Optimization

要約 マルチモーダル大手言語モデル(MLLM)は、マルチモーダルの理解、推論、お … 続きを読む

カテゴリー: cs.CL, cs.CV | Towards Harmless Multimodal Assistants with Blind Preference Optimization はコメントを受け付けていません

Zero-Shot Action Recognition in Surveillance Videos

要約 公共スペースでの監視に対する需要の高まりは、人的資源の不足により大きな課題 … 続きを読む

カテゴリー: cs.CL, cs.CV | Zero-Shot Action Recognition in Surveillance Videos はコメントを受け付けていません

Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising

要約 複数のブラックボックス、事前に訓練されたLDR画像拡散モデルの協調アクショ … 続きを読む

カテゴリー: cs.CV, cs.GR, eess.IV | Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising はコメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

要約 視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む

カテゴリー: cs.CL, cs.CV | DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies はコメントを受け付けていません

BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data

要約 リアルタイムマルチオブジェクトトラッキング(MOT)と比較して、オフライン … 続きを読む

カテゴリー: cs.AI, cs.CV | BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data はコメントを受け付けていません

LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models

要約 潜在的なビデオ拡散モデル(LVDMS)の最近の進歩は、ビデオ変動自動エンコ … 続きを読む

カテゴリー: cs.CV, eess.IV | LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models はコメントを受け付けていません

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

要約 器用なロボットの手は、低ダイバーシティデータで訓練されたモデルの制限により … 続きを読む

カテゴリー: cs.CV | EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment はコメントを受け付けていません

ADAPT: An Autonomous Forklift for Construction Site Operation

要約 効率的な材料物流は、建設業界のコストとスケジュールを管理する上で重要な役割 … 続きを読む

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | ADAPT: An Autonomous Forklift for Construction Site Operation はコメントを受け付けていません

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation

要約 ストーリーテリングビデオジェネレーション(SVG)は、構造化された物語に続 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation はコメントを受け付けていません

Multi-Prototype Embedding Refinement for Semi-Supervised Medical Image Segmentation

要約 医療画像セグメンテーションは、ボクセルレベルの解剖学的構造を特定することを … 続きを読む

カテゴリー: cs.CV, eess.IV | Multi-Prototype Embedding Refinement for Semi-Supervised Medical Image Segmentation はコメントを受け付けていません