cs.CV」カテゴリーアーカイブ

Tiled Diffusion

要約 画像タイリング (異なる画像をシームレスに接続して一貫した視覚フィールドを … 続きを読む

カテゴリー: cs.CV | Tiled Diffusion はコメントを受け付けていません

LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation

要約 私たちは、マルチモーダル生成機能を備えた事前トレーニング済みのテキスト専用 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation はコメントを受け付けていません

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

要約 インタラクティブな視覚言語モデル (VLM) を介した膨大な地球観測データ … 続きを読む

カテゴリー: cs.CV | EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues はコメントを受け付けていません

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

要約 私たちは、一時的に調整されたクロスモーダル コンディショニングのためのフリ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation はコメントを受け付けていません

Preventing Local Pitfalls in Vector Quantization via Optimal Transport

要約 ベクトル量子化ネットワーク (VQN) は、さまざまなタスクにわたって優れ … 続きを読む

カテゴリー: cs.CV, cs.LG | Preventing Local Pitfalls in Vector Quantization via Optimal Transport はコメントを受け付けていません

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation

要約 このペーパーは、動的運転シナリオにおけるリアルタイム LiDAR 再シミュ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation はコメントを受け付けていません

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

要約 プロシージャル コンテンツ生成 (PCG) は、高品質の 3D コンテンツ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation はコメントを受け付けていません

FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching

要約 自己回帰 (AR) モデリングは、次のトークン予測を通じてモデルが一貫性と … 続きを読む

カテゴリー: cs.CV | FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching はコメントを受け付けていません

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

要約 自動運転 (AD) 向けに調整されたラージ ビジョン言語モデル (VLM) … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving はコメントを受け付けていません

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

要約 マルチモーダル大規模言語モデル (MLLM) の出現以来、特に自動運転 ( … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving はコメントを受け付けていません