「cs.CV」カテゴリーアーカイブ

Tiled Diffusion

投稿日: 2024年12月20日作成者: jarxiv

要約画像タイリング (異なる画像をシームレスに接続して一貫した視覚フィールドを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation

投稿日: 2024年12月20日作成者: jarxiv

要約私たちは、マルチモーダル生成機能を備えた事前トレーニング済みのテキスト専用 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

投稿日: 2024年12月20日作成者: jarxiv

要約インタラクティブな視覚言語モデル (VLM) を介した膨大な地球観測データ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

投稿日: 2024年12月20日作成者: jarxiv

要約私たちは、一時的に調整されたクロスモーダルコンディショニングのためのフリ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Preventing Local Pitfalls in Vector Quantization via Optimal Transport

投稿日: 2024年12月20日作成者: jarxiv

要約ベクトル量子化ネットワーク (VQN) は、さまざまなタスクにわたって優れ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation

投稿日: 2024年12月20日作成者: jarxiv

要約このペーパーは、動的運転シナリオにおけるリアルタイム LiDAR 再シミュ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

投稿日: 2024年12月20日作成者: jarxiv

要約プロシージャルコンテンツ生成 (PCG) は、高品質の 3D コンテンツ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching

投稿日: 2024年12月20日作成者: jarxiv

要約自己回帰 (AR) モデリングは、次のトークン予測を通じてモデルが一貫性と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

投稿日: 2024年12月20日作成者: jarxiv

要約自動運転 (AD) 向けに調整されたラージビジョン言語モデル (VLM) … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

投稿日: 2024年12月20日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の出現以来、特に自動運転 ( … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Tiled Diffusion

LlamaFusion: Adapting Pretrained Language Models for Multimodal Generation

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Preventing Local Pitfalls in Vector Quantization via Optimal Transport

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-simulation

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching

AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

最近の投稿

最近のコメント

アーカイブ

カテゴリー