「cs.LG」カテゴリーアーカイブ

Jet: A Modern Transformer-Based Normalizing Flow

投稿日: 2024年12月20日作成者: jarxiv

要約これまで、生成フローの正規化は、自然画像の生成モデルの有望なクラスとして浮 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Leveraging Color Channel Independence for Improved Unsupervised Object Detection

投稿日: 2024年12月20日作成者: jarxiv

要約オブジェクト中心のアーキテクチャは、ビジュアルシーンから個別のオブジェク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 | コメントを受け付けていません

LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation

投稿日: 2024年12月20日作成者: jarxiv

要約私たちは、マルチモーダル生成機能を備えた事前トレーニング済みのテキスト専用 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

投稿日: 2024年12月20日作成者: jarxiv

要約私たちは、一時的に調整されたクロスモーダルコンディショニングのためのフリ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Preventing Local Pitfalls in Vector Quantization via Optimal Transport

投稿日: 2024年12月20日作成者: jarxiv

要約ベクトル量子化ネットワーク (VQN) は、さまざまなタスクにわたって優れ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation

投稿日: 2024年12月20日作成者: jarxiv

要約このペーパーは、動的運転シナリオにおけるリアルタイム LiDAR 再シミュ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

投稿日: 2024年12月20日作成者: jarxiv

要約自動運転 (AD) 向けに調整されたラージビジョン言語モデル (VLM) … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

投稿日: 2024年12月20日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の出現以来、特に自動運転 ( … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

投稿日: 2024年12月20日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) の大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Scaling 4D Representations

投稿日: 2024年12月20日作成者: jarxiv

要約ビデオからの純粋な自己教師あり学習については、スケーリングが説得力を持って … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

Jet: A Modern Transformer-Based Normalizing Flow

Leveraging Color Channel Independence for Improved Unsupervised Object Detection

LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Preventing Local Pitfalls in Vector Quantization via Optimal Transport

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

Scaling 4D Representations

最近の投稿

最近のコメント

アーカイブ

カテゴリー