cs.LG」カテゴリーアーカイブ

Jet: A Modern Transformer-Based Normalizing Flow

要約 これまで、生成フローの正規化は、自然画像の生成モデルの有望なクラスとして浮 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Jet: A Modern Transformer-Based Normalizing Flow はコメントを受け付けていません

Leveraging Color Channel Independence for Improved Unsupervised Object Detection

要約 オブジェクト中心のアーキテクチャは、ビジュアル シーンから個別のオブジェク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 | Leveraging Color Channel Independence for Improved Unsupervised Object Detection はコメントを受け付けていません

LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation

要約 私たちは、マルチモーダル生成機能を備えた事前トレーニング済みのテキスト専用 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation はコメントを受け付けていません

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

要約 私たちは、一時的に調整されたクロスモーダル コンディショニングのためのフリ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation はコメントを受け付けていません

Preventing Local Pitfalls in Vector Quantization via Optimal Transport

要約 ベクトル量子化ネットワーク (VQN) は、さまざまなタスクにわたって優れ … 続きを読む

カテゴリー: cs.CV, cs.LG | Preventing Local Pitfalls in Vector Quantization via Optimal Transport はコメントを受け付けていません

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation

要約 このペーパーは、動的運転シナリオにおけるリアルタイム LiDAR 再シミュ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation はコメントを受け付けていません

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

要約 自動運転 (AD) 向けに調整されたラージ ビジョン言語モデル (VLM) … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving はコメントを受け付けていません

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

要約 マルチモーダル大規模言語モデル (MLLM) の出現以来、特に自動運転 ( … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving はコメントを受け付けていません

PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

要約 Large Vision-Language Model (LVLM) の大 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation はコメントを受け付けていません

Scaling 4D Representations

要約 ビデオからの純粋な自己教師あり学習については、スケーリングが説得力を持って … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Scaling 4D Representations はコメントを受け付けていません